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我 们 生活 在 大 数据 时 代 ， 正 以 前 所 未 有 的 速度 和 规模 产生 数据 。 数 据 资产 正成 为 和 土地 、 
资本 、 人 力 并 驾 齐 驱 的 关键 生产 要 素 ， 并 在 社会 、 经 济 、 科 学 研究 等 方面 颠覆 人 们 探索 世界 的 
方法 、 驱 动产 业 间 的 融合 与 分 立 。 

大 数据 是 用 来 描述 数据 规模 巨大 、 数 据 类 型 复杂 的 数据 集 ， 它 本 身 蕴含 着 丰富 的 价值 。 比 
如 : 在 金融 行业 ， 企 业 和 个 人 的 一 些 信用 记录 、 消 费 记 录 、 客 户 点 击 数据 集 、 客 户 刷卡 、 存 取 
款 、 电 子 银行 转账 、 微 信 评 论 等 行为 数据 组 合 为 金融 大 数据 ， 他 们 利用 大 数据 技术 为 财富 客户 
推荐 产品 , 利用 客户 行为 数据 设计 满足 客户 需求 的 金融 产品 , 利用 金融 行业 全 局 数据 了 解 业务 
运营 薄弱 点 并 加 快 内 部 数据 处 理 速度 , 利用 决策 树 技术 进入 抵押 贷款 管理 , 利用 数据 分 析 报告 
实施 产业 信贷 风险 控制 ， 利 用 客户 社交 行为 记录 实施 信用 卡 反 欺诈 ， 依 据 客户 消费 习惯 、 地 理 
位 置 、 销 售 时 间 进行 推荐 (精准 营销 )。 不 仅仅 金融 行业 ， 政 府 部 门 会 根据 大 数据 分 析 结 果 来 
做 预算 ， 企 业 也 会 根据 大 数据 来 进行 市 场 策略 调整 。 

Gartner 指出 ，64% 的 受 访 企业 表示 他 们 正在 或 是 即将 进行 大 数据 工作 ， 然 而 其 中 一 些 企 
业 却 并 不 知道 他 们 能 够 使 用 大 数据 做 些 什么 。 这 正好 印证 了 大 数据 领域 的 最 主要 的 两 个 挑战 : 
如 何 从 大 数据 中 获取 价值 以 及 如 何 定义 大 数据 战略 。 这 是 本 书 首先 需要 解释 的 内 容 。 

谷歌 、Amazon、Facebook 等 全 球 知名 互联 网 企业 作为 大 数据 领域 的 先驱 者 ， 凭 借 自身 力 
量 进行 大 数据 探索 , 甚至 在 必要 时 创造 出 相关 工具 。 这 些 工具 目前 已 经 被 视 为 大 数据 技术 的 基 
础 ， 其 中 最 知名 的 当 数 MapReduce 与 Hadoop。Hadoop 是 目前 处 理 大 规模 结构 化 与 非 结构 数 
据 的 首选 平台 ， 它 提供 了 分 布 式 处 理 框架 与 开发 环境 。 MapReduce 是 一 种 计算 框架 ， 它 实现 
了 将 大 型 数据 处 理 任务 分 解 成 很 多 单个 的 、 可 以 在 服务 器 集群 中 并 行 执行 的 任务 , 这 些 任务 的 
计算 结果 可 以 合并 在 一 起 来 计算 最 终 的 结果 。 在 Hadoop 问世 以 来 的 十 年 间 ， 新 的 组 件 〈 如 : 
Spark) 层出不穷， 极 大 地 扩张 了 整个 Hadoop 生态 圈 。 

大 数据 技术 有 别 于 传统 数据 处 理工 具 和 技术 ,而 且 大 数据 技术 很 难 掌握 ,一般 需 要 1-2 年 
的 反复 尝试 ， 在 实际 使 用 中 解决 了 大 量 问题 之 后 才能 正确 理解 它 。 我 们 编写 这 本 书 的 目的 是 ， 
以 硅谷 大 数据 实战 为 基础 ， 让 读者 略 过 那些 不 重要 的 大 数据 的 细 枝 末节 , 通过 实际 的 案例 , 帮 
助 读 者 快速 掌握 大 数据 技术 领域 最 能 商用 的 大 数据 工具 和 软件 平台 ,从 而 帮助 读者 轻松 实施 大 
数据 方案 。 在 本 书 中 ， 我 们 将 阐述 如 下 最 为 硅谷 所 熟知 的 大 数据 相关 技术 : 

@ 框架 : Hadoop、Spark。 


@ 集群 管理 : MapReduce、Yarn、Mesos。 
@ 开发 语言 : Java、Python、Scala、Pig、Hive、Spark SQL。 
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数据 库 : NoSQL、HBase、Cassandra、Impala。 
文件 系统 : HDFS、Ceph。 

搜索 系统 : Elastic Search。 

采集 系统 : Flume、Sqoop、Kafka。 

流 式 处 理 : Spark Streaming、Storm。 

发 行 版 : HortonWorks、Cloudera、MapR。 
管理 系统 : Ambari、 大 数据 管理 平台 。 

机 器 学 习 : Spark MLlib、Mahout。 


上 面 的 列表 也 说 明了 ，Hadoop 生态 圈 有 几 十 个 软件 组 成 。 这 些 软件 提供 了 什么 功能 ? 到 
底 在 什么 情况 下 使 用 什么 软件 ? 软件 之 间 怎 么 组 合 使 用 ? 这 些 问 题 正 是 本 书 想 要 回答 的 。 本 书 
与 市 场 上 其 他 大 数据 书籍 的 区 别 是 ， 我 们 不 是 专注 某 一 个 软件 (比如 : Spark)， 而 是 曾 述 整个 
生态 圈 中 的 主流 软件 ， 通过 实例 让 你 理解 这 些 软 件 是 什么 , 在 什么 场合 使 用 , 相互 的 区 别 是 什 
么 。 如 果 我 们 把 这 几 十 个 软件 比喻 成 几 十 种 厨房 工具 ， 那 就 是 让 你 避免 拿 着 菜刀 去 前 苹果 , 或 
者 拿 着 水 果 刀 去 市 肉 。 

除了 阐述 大 数据 的 定义 、 前 景 和 各 类 Hadoop 发 行 版 之 外 ， 本 书 主要 是 按照 大 数据 处 理 的 
几 个 大 步骤 来 组 织 内 容 的 。 


(1) 大 数据 存储 : 探究 HDFS 和 HBase 作为 大 数据 存储 方式 的 优 劣 。 

(2) 大 数据 访问 : 探究 SQL 引擎 层 中 Hive、Phoenix、Spark SQL 等 组 件 的 功能 ， 并 闸 
述 了 全 文 搜索 的 ElasticSearch， 也 探究 了 Spark 的 高 速 访 问 能 力 。 

(3) 大 数据 采集 : 大 数据 的 采集 是 指 接收 各 类 数据 源 〈 比 如 : Web、 行 业 应 用 系统 或 者 
传感器 等 ) 的 数据 。 大 数据 采集 的 主要 特点 和 挑战 是 导入 的 数据 量 大 (每 秒 钟 的 导入 量 经 常会 
达到 百 兆 ,甚至 千 兆 级 别 )、 并 发 数 高 和 数据 源 的 异 构 。 采集 端 可 能 会 有 很 多 数据 库 (或 文件 )， 
有 时 需要 在 导入 基础 上 做 一 些 简单 的 清洗 和 预 处 理工 作 。 在 这 个 部 分 ， 我 们 探究 了 Flume、 
Kafka、Sqoop 等 技术 ， 也 探究 了 如 何 使 用 Storm 和 Spark Streaming 来 对 数据 进行 流 式 计算 ， 
来 满足 部 分 业务 的 实时 和 准 实时 计算 需求 。 

(4) 大 数据 管理 : 探究 数据 模型 、 安 全 控制 、 数 据 生命 周期 等 数据 管理 内 容 。 

(5) 大 数据 的 统计 和 分 析 : 探究 了 如 何 利用 分 布 式 计算 集群 来 对 存储 于 其 内 的 海量 数据 
进行 统计 分 析 ， 重 点 探究 了 机 器 学 习 和 Spark MLIib， 也 阐述 了 多 种 分 析 算法 。 


参加 本 书 编写 的 同志 还 有 : 余 飞 、 邵 敏 华 、 欧 阳 涛 、 杨 正 礼 、 王 娜 、 李 祥 、 刘 毕 操 、 彭 勃 、 
李 招 、 张 剑 、 杨 硕 等 人 。 由 于 我 们 水 平 有 限 ， 书 中 难免 存在 纶 漏 之 处 ， 敬 请 读者 批评 指正 。 杨 
正 洪 的 邮件 地 址 为 yangzhenghong@yahoo.com。 


杨 正 洪 
2016 年 5 月 于 San Jose 
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从 20 世纪 开始 ， 政 府 和 各 行 各 业 《〈 如 : 医疗 、 网 络 、 金 融 、 电 信 ) 的 信息 化 得 到 了 迅速 发 
展 ， 积 累 了 海量 数据 。 在 这 些 数据 当中 ，87% 以 上 都 是 非 结 构 化 数据 。 虽 然 国内 的 各 类 数据 中 心 
已 经 有 足够 的 硬件 设施 来 存储 这 些 数据 ， 但 是 ， 如 何 让 这 些 海量 数据 产生 最 大 的 商业 价值 ， 是 目 
前 面临 的 挑战 之 一 。 还 有 ， 由 于 数据 的 增长 速度 越 来 越 快 ， 数 据 量 越 来 越 大 ， 传 统 的 数据 库 或 数 
据 仓 库 很 难 存储 、 管 理 、 查 询 和 分 析 这 些 数据 ， 如 何在 软件 层面 实现 PB 级 乃至 ZB 级 的 海量 数 
据 存储 和 分 析 是 目前 面临 的 挑战 之 二 。 大 数据 (Big Data) 技术 就 因此 而 生 ， 并 成 功 地 解决 了 这 
两 个 挑战 。 以 大 数据 的 采集 、 整 理 、 存 储 、 管 理 、 挖 掘 、 共 享 、 分 析 、 反 馈 、 应 用 为 核心 ， 最 终 
实现 智慧 城市 。 根 据 IDC 预测 ，2016 年 的 全 球 大 数据 市 场 规模 将 达到 230 亿美 元 。 


.什么 是 大 数据 


大 数据 不 是 一 项 单一 的 技术 ， 而 是 一 个 概念 ， 是 一 套 技术 ， 是 一 个 生态 圈 。 大 数据 技术 和 专 
业 术 语 多 达 几 十 个 ， 记 录 了 大 数据 从 炒作 到 成 熟 并 进入 主流 应 用 的 过 程 。 数 据 科 学 家 、 预 测 分 
析 、 开 放 政府 数 据 ， 都 属于 大 数据 范畴 。 大 数据 技术 也 逐渐 变 得 越 来 越 复杂 。 政 府 和 企业 希望 从 
自己 的 数据 中 获得 更 多 的 信息 ， 软 件 厂商 希望 将 “大 数据 解决 方案 ”融入 公司 的 产品 之 中 。 在 大 
数据 软件 公司 的 助 推 下 ， 政 府 和 企业 已 经 有 能 力 利用 廉价 的 服务 器 、 开 源 技术 和 云 计算 来 进行 开 
销 不 大 的 大 数据 部 署 。 

对 于 什么 是 “大 数据 ”不 同 的 研究 机 构 从 不 同 的 角度 给 出 了 不 同 的 定义 。Gartner 认为 : 
“大 数据 是 需要 新 处 理 模式 才能 具有 更 强 的 决策 力 、 洞 察 发 现 力 和 流程 优化 能 力 的 海量 、 高 增长 
率 和 多 样 化 的 信息 资产 ”。 麦 肯 锡 认为 :“ 大 数据 指 的 是 大 小 超出 常规 的 数据 库 工具 获取 、 存 储 、 
管理 和 分 析 能 力 的 数据 集 。 但 它 同 时 强调 ， 并 不 是 说 一 定 要 超过 特定 TB 值 的 数据 集 才 能 算是 大 
数据 ” 根据 维基 百科 的 定义 ,“ 大 数据 是 指 无 法 在 可 承受 的 时 间 范 围 内 用 常规 软件 工具 进行 捕 
捉 、 管 理 和 处 理 的 数据 集合 ”IDG 认为 :“ 大 数据 一 般 会 涉及 2 种 或 2 种 以 上 数据 形式 ， 它 要 
收集 超过 100TB 的 数据 ， 并 且 是 高 速 实时 数据 流 ; 或 者 是 从 小 数据 开始 ， 但 数据 每 年 会 增长 
60% 以 上 ”。 
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从 客户 的 角度 来 看 ， 大 数据 技术 的 战略 意义 不 在 于 拥有 多 么 庞大 的 数据 信息 ， 而 在 于 对 这 些 
含有 意义 的 大 数据 进行 专业 化 处 理 ， 从 中 获得 商业 价值 。 比 如 ， 以 色 列 已 经 把 所 有 政府 部 门 的 视 
频 整 合 到 一 个 大 数据 管理 平台 上 ， 并 在 这 个 平台 上 开发 了 一 套 智 慧 安 防 系统 。 在 这 个 系统 上 ， 只 
要 把 某 一 个 人 的 人 脸 或 人 的 主要 特征 数据 输入 系统 ， 就 能 从 海量 的 监控 记录 中 查 出 同 那 个 人 相关 
的 视频 片段 ， 并 自动 变 成 一 个 有 时 间 顺 序 的 片子 。 

随 着 以 云 计算 、 大 数据 、 物 联网 等 为 代表 的 新 一 代 信 息 技术 的 发 展 和 应 用 ， 世 界 经 济 进入 了 
大 转型 时 代 ， 主 要 发 达 国家 以 及 国内 发 达 省 市 都 紧 盯 紧 跟 这 一 轮 产 业 变革 ， 试 图 抢占 未 来 经 济 发 
展 先 机 。 大 数据 是 一 种 产业 ， 这 种 产业 实现 鳃 利 的 关键 在 于 提高 对 数据 的 “加 工 能 力 ” 通过 
“加 工 ” 实 现 数据 的 “增值 ”， 完成 “数据 变现 ”这 种 加 工 能 力 体现 在 技术 上 就 是 大 数据 分 析 。 
简 言 之 ， 从 各 种 各 样 类 型 的 数据 中 ， 快 速 获 得 有 价值 信息 的 能 力 ， 就 是 大 数据 技术 。 大 数据 最 核 
心 的 技术 就 是 在 于 对 于 海量 数据 进行 采集 、 存 储 、 管 理 和 分 析 。 


1 大 数据 的 四 大 特征 


大 数据 具有 4 V 特征 ， 即 Volume (数据 体 量 大 )、Variety 〈 数 据 类 型 繁多 )、Velocity (数据 
产生 的 速度 快 )、Value (数据 价值 密度 低 )。 

Volume 指 的 是 数据 体 量 巨大 。 比 如 ， 一 家 3 甲 医院 的 影像 数据 (这 包括 CT、B 超 、X 光 
片 、 胃 镜 、 肠 镜 等 ) 可 能 就 是 几 百 个 TB， 全 国 的 医疗 影像 数据 超过 PB 级 别 ， 接 近 EB 级 别 。 
全 球 数据 已 进入 ZB 时 代 ，IDC 预计 2020 年 全 球 数据 量 为 40ZB。 

Variety 指 的 是 数据 类 型 繁多 。 这 可 分 为 结构 化 数据 、 半 结构 化 数据 和 非 结 构 化 数据 。 结 构 
化 数据 ， 即 行 数据 ， 存 储 在 数据 库 里 ， 可 以 用 二 维 表 结构 来 逻辑 表达 数据 ， 比 如 企业 财务 系统 、 
医疗 HIS 数据 库 、 环 境 监测 数据 、 政 府 行政 审批 等 等 。 非 结构 化 数据 ， 一 般 存储 在 文件 系统 
上 ， 比 如 视频 、 音 频 、 图 片 、 图 像 、 文 档 、 文 本 等 形式 。— 典 型 案例 有 : 医疗 影像 系统 、 教 育 视频 
点 播 、 公 安 视频 监控 、 国 土 GIS、 广 电 多 媒体 资源 管理 系统 等 应 用 。 半 结构 化 数据 ， 介 于 完全 结 
构 化 数据 (如 关系 型 数据 库 、 面 向 对 象 数 据 库 中 的 数据 ) 和 完全 无 结构 的 数据 (如 声音 、 图 像 文 
件 等 ) 之 间 的 数据 。 比 如 邮件 、HTML、 报 表 等 等 ， 典 型 场景 如 邮件 系统 、 教 学 资源 库 、 档 案 系 
统 等 等 。 非 结构 化 与 半 结 构 化 数据 的 增长 速率 大 于 结构 化 数据 ， 超 过 80% 的 数据 是 非 结构 化 数 
据 。IDC 的 报告 显示 ， 目 前 大 数据 的 1.8 万 亿 GB 容量 中 ， 非 结构 化 数据 占 到 了 80%~90%， 并 
且 到 2020 年 将 以 44 倍 的 发 展 速度 增加 。 非 结构 化 数据 比例 不 断 升 高 ， 这 些 数据 中 蕴含 着 巨大 的 
价值 。 

Velocity 是 指 大 数据 往往 以 数据 流 的 形式 动态 、 快 速 地 产生 ， 具 有 很 强 的 时 效 性 。 数 据 自 身 
的 状态 与 价值 也 往往 随时 空 变化 而 发 生 演 变 (这些 数据 往往 包括 了 空间 维 、 时 间 维 等 多 种 数 
据 ) 。 比 如 ， 环 境 监 测 中 的 水 质 和 空气 质量 数据 、 高 速 路 卡 口 的 视频 监测 数据 等 。 

Value 是 指数 据 已 经 成 为 一 类 新 型 资产 ， 蕴 藏 着 大 价值 。 大 数据 的 价值 密度 低 ， 需 要 通过 专 
业 的 技术 手段 进行 挖掘 。 只 有 对 其 进行 正确 、 准 确 的 分 析 ， 才 会 带 来 很 高 的 价值 回报 。 比 如 ， 电 
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视 机 项 盒 的 频道 切换 数据 ， 各 大 电视 台 分 析 其 中 的 数据 ， 从 中 准确 判断 观众 的 喜好 ， 以 推出 更 加 
符合 观众 口味 的 节目 。 

大 数据 并 非 总 是 说 有 数 百 个 TB 才 算 得 上 。 根 据 实际 使 用 情况 ， 有 时 候 数 百 个 GB 的 数据 也 
可 称 为 大 数据 ， 这 主要 要 看 它 的 其 他 维度 ， 也 就 是 速度 或 者 时 间 维 度 。 假 如 能 在 1 秒 之 内 分 析 处 
理 300GB 的 数据 ， 而 通常 情况 下 却 需要 花费 1 个 小 时 的 话 ， 那 么 这 种 巨大 变化 所 带 来 的 结果 就 
会 极 大 地 增加 价值 。 所 谓 大 数据 技术 ， 就 是 至 少 实现 这 四 个 判 据 (特征 ) 中 的 几 个 。 


上当 ”大 数据 的 商用 化 


大 数据 是 传统 的 架构 、 传 统 的 技术 无 法 解决 的 数据 处 理 问 题 。Hadoop 的 出 现 ， 解 决 了 大 数 
据 的 快速 存储 和 读 取 ， 也 为 我 们 提供 了 大 数据 分 析 的 众多 工具 ， 但 是 ， 对 于 大 数据 商用 而 言 ， 这 
并 不 够 ! 因为 大 数据 的 名 字 有 “大 ”， 所 以 很 多 人 把 重点 集中 在 了 数据 的 容量 上 ， 简 单 地 认为 数 
据 量 是 最 大 的 问题 。 实 际 上 大 数据 除了 数据 量 的 问题 外 ， 还 会 把 信息 管理 的 各 项 需求 都 推 向 极致 
(如 图 1-1 所 示 ) 。 


大 数据 质量 管理 〈 如 : 数据 有 效 性 、 有 效 期 限 、 相 关 性 ) 
大 数据 访问 的 权限 管理 和 控制 (如 : 敏感 性 分 级 、 共 享 协议 、 数 据 模型 ) 


大 数据 基本 问题 (4V) 


图 1-1 大 数据 商用 需求 


最 下 面 的 这 一 层 是 大 数据 基本 的 问题 ， 包 括 大 数据 量 、 多 样 性 、 高 速 和 低 价值 。 解 决 这 四 个 
方面 的 问题 只 是 大 数据 商用 化 的 基础 ， 这 只 是 支撑 起 大 数据 的 平台 。Hadoop 技术 很 好 地 解决 了 
这 一 层 的 问题 。Hadoop 也 被 认为 是 下 一 代 IT 架构 的 基础 ，Hadoop 系统 将 逐步 替换 以 关系 型 数 
据 库 为 基础 的 传统 系统 。 

中 间 这 一 层 是 关于 访问 权限 的 问题 。 数 据 的 敏感 性 是 一 个 很 基础 的 问题 ， 但 是 现 有 的 
Hadoop 技术 还 没有 对 数据 的 敏感 性 提供 可 行 的 解决 方案 。 那 些 提供 大 数据 解决 方案 的 IT 企业 不 
仅仅 要 关注 大 数据 的 4V 量化 指标 ， 还 需要 把 注意 力 放 在 “数据 敏感 性 分 级 ”上 。 国 内 超过 80% 
的 数据 在 政府 的 系统 内 。 如 果 我 们 的 大 数据 解决 方案 没有 给 政府 数据 提供 诸如 敏感 性 分 级 的 权限 
管理 机 制 ， 那 么 ， 政 府 是 很 难 往 前 迈 一 步 的 。 比 如 : 公安 、 税 务 、 工 商 等 各 部 门 的 数据 在 一 个 平 
台 上 所 产生 的 访问 控制 问题 。 共 享 协议 是 指数 据 将 会 以 什么 形式 ， 通 过 什么 样 的 接口 实现 数据 交 
换 ， 这 是 大 数据 的 重点 问题 之 一 。 数 据 交 换 的 所 有 的 方式 都 是 以 标准 的 协议 来 支持 ， 因 为 在 大 数 
据 的 时 代 ， 数 据 的 来 源 本 身 是 多 样 性 的 ， 数 据 的 格式 甚至 是 无 法 管理 的 ， 很 多 的 数据 是 来 自 于 企 
业 的 外 部 ， 来 自 于 互联 网 的 提供 商 。 到 底 如 何 通 过 这 些 协议 和 统一 数据 模型 自动 化 地 将 数据 放 到 
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大 数据 平台 上 来 ， 这 是 一 个 很 严重 的 问题 。Hadoop 本 身 并 没有 技术 工具 来 解决 这 些 方面 的 问 
题 。 

最 上 面 一 层 是 有 关 大 数据 质量 的 管理 。 数 据 本 身 是 一 种 资产 ， 资 产 质量 怎么 来 衡量 ， 我 们 如 
何 确保 数据 的 质量 。 这 个 也 是 我 们 在 实施 大 数据 商用 上 需要 考虑 的 一 个 问题 。 质 量 管理 是 传统 的 
数据 管理 里 非常 重要 的 一 个 方面 ， 这 包括 数据 的 有 效 性 和 有 效 期 限 。Hadoop 本 身 并 没有 技术 工 
具 来 解决 这 些 方面 的 问题 ， 但 是 我 们 需要 相应 的 大 数据 工具 和 技术 来 解决 这 些 问 题 ， 这 就 是 我 们 
下 面 阐述 的 大 数据 管理 平台 的 作用 。 除 了 提供 大 数据 质量 的 管理 ， 这 个 管理 平台 还 提供 上 述 的 大 
数据 访问 的 权限 管理 等 功能 。 

如 图 1-2 所 示 ， 从 用 户 的 角度 ， 从 大 数据 平台 的 功能 性 的 角度 来 看 ， 我 们 把 大 数据 平台 细 分 
为 三 个 平台 : 大 数据 云 平台 、 大 数据 管理 平台 和 大 数据 应 用 分析) 平台。 大 数据 采集 (也 叫 数 
据 交换 和 共享 ) 包含 在 大 数据 管理 平台 之 中 。 


大 数据 应 用 〈 分 析 ) 平台 
大 数据 管理 平台 


1-2 大 数据 建设 总 体 架构 图 


大 数据 云 平台 是 集约 化 建设 的 IT 基础 设施 层 ， 为 大 数据 处 理 和 应 用 提供 统一 的 基础 支撑 服 
务 ， 大 数据 管理 平台 是 数据 资源 层 ， 为 大 数据 应 用 提供 统一 数据 采集 、 分 析 和 处 理 等 支持 服务 ， 
大 数据 应 用 平台 是 业务 应 用 层 ， 为 大 数据 在 各 领域 的 应 用 提供 综合 服务 。 从 人 逻辑 结构 上 看 ， 很 多 
大 数据 应 用 需要 基于 大 数据 管理 平台 ， 而 Hadoop 技术 只 能 完成 大 数据 的 底层 功能 ， 即 : 大 数据 
的 快速 采取 、 存 储 和 读 取 ， 所 以 Hadoop 是 大 数据 管理 平台 的 基础 。 正 是 因为 Hadoop 缺少 相应 
的 数据 管理 技术 和 工具 的 支持 ， 上 述 的 一 些 非 常 基本 的 商用 问题 到 现在 还 没有 解决 ， 这 就 凸显 了 
大 数据 管理 平台 的 重要 性 。 只 有 提供 了 统一 的 大 数据 管理 平台 ， 数 据 的 集成 尤其 是 跨行 业 、 跨 不 
同 的 部 门 、 跨 各 种 技术 的 集成 才能 成 为 可 能 。 整 个 大 数据 应 用 的 架构 必然 是 构建 在 一 个 大 数据 管 
理 平台 之 上 ， 这 才 可 能 实现 大 数据 应 用 的 大 规模 商用 和 普及 ， 而 不 应 该 只 是 基于 裸露 的 
Hadoop。 

大 数据 顾名思义 数据 量 庞大 。 在 大 数据 时 代 ， 企 业 的 数据 不 仅仅 有 传统 的 结构 化 数据 ， 还 有 
各 类 非 结构 化 数据 。 结 合 对 数据 吞吐 量 的 合理 设计 ， 将 这 些 数据 采集 到 大 数据 平台 应 该 不 会 是 很 
难 的 事情 。 比 较 难 的 是 数据 的 转换 、 协 调 、 确 保 不 同 数据 源 之 间 的 一 致 性 、 检 查 数 据 的 质量 ， 这 
些 是 大 数据 采集 中 比较 难 实施 的 部 分 ， 而 且 在 这 些 方面 我 们 可 用 的 自动 化 工具 较 少 。 

国内 的 大 数据 软件 企业 基本 上 都 处 于 相对 初级 的 阶段 。 很 多 新 兴 的 公司 提供 Hadoop 的 发 行 
版 本 的 安装 和 配置 ， 并 针对 Hadoop 提供 了 一 些 定制 化 的 应 用 。 国 内 大 数据 软件 产品 和 技术 就 是 
处 于 这 么 一 个 刚刚 开始 的 状态 。 数 据 访问 、 安 人 全、 隐私、 归档 等 ， 对 数据 管理 来 说 ， 一 些 非 常 重 
要 的 、 甚 至 于 可 以 说 是 非常 致命 的 需求 ， 到 现在 仍然 没有 足够 的 解决 方案 。 我 们 必须 重点 关注 有 
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关 数 据 管理 的 问题 ， 因 为 这 可 能 是 大 数据 商用 解决 方案 中 的 一 个 最 薄弱 的 环节 。 


1.4A 大 数据 分 析 


大 数据 平台 可 以 存储 所 有 类 型 的 数据 。 从 简单 的 文件 存储 ， 到 不 强调 一 致 性 的 非 关 系 型 数据 
库存 储 。 得 益 于 自身 基础 设计 理念 ， 大 数据 平台 可 以 无 限 扩 展 。 如 果 大 数据 平台 在 云端 运行 维 
护 ， 那 么 它 的 灵活 性 将 更 强 。 从 概念 上 讲 ， 存 储 数据 是 大 数据 应 用 中 最 易于 实现 的 部 分 。 

光 有 大 数据 还 不 够 。 那 么 ， 在 大 数据 平台 上 存储 了 足够 多 的 数据 后 ， 我 们 该 怎么 将 其 加 以 利 
用 呢 ? 分 析 大 数据 ， 并 将 分 析 结果 应 用 于 决策 中 才 是 最 重要 的 事情 。 预 测 分 析 (predictive 
analytics) 是 大 数据 分 析 领 域 中 的 一 个 常用 模式 ， 它 通过 分 析 采 集 的 数据 来 预测 未 来 的 行为 或 趋 
势 。 它 根据 事物 的 过 去 和 现在 估计 未 来 ， 根 据 已 知 预测 未 知 ， 从 而 减少 对 未 来 事物 认识 的 不 确定 
性 ， 以 用 来 指导 我 们 的 决策 行动 ， 减 少 决策 的 盲目 性 。 在 大 数据 分 析 领 域 ， 预 测 分 析 常 常 与 预测 
模型 、 机 器 学 习 和 数据 挖掘 有 关 。 对 于 一 个 政府 部 门 而 言 ， 通 过 预测 分 析 来 精准 把 握 政府 工作 的 
重点 。 比 如 : 云 升 科技 帮助 湖州 市 公安 局 分 析 来 自 各 个 渠道 的 海量 群众 诉求 ， 预 测 下 个 月 的 警 务 
工作 热点 ， 从 而 帮助 湖州 市 公安 局 合理 安排 营 力 ， 最 终 实现 民意 引领 警 务 。 美 国 的 医疗 决策 支持 
系统 基于 预测 分 析 来 判断 某 些 人 得 某 些 疾病 的 风险 ， 并 基于 当前 的 健康 状态 给 出 最 正确 的 医疗 决 
定 。 国 内 的 很 多 金融 企业 通过 预测 分 析 来 实现 业务 的 风险 控制 。 比 如 : 某 银行 分 析 其 客户 的 消费 
数据 和 基本 数据 ， 从 而 预测 该 客户 的 信用 卡 和 贷款 的 偿还 能 力 。 环 保 部 门 用 数据 决策 ， 利 用 环保 
大 数据 综合 研判 ， 制 定 环境 政策 措施 ， 预 警 环境 风险 ， 提 供 环境 综合 治理 科学 化 水 平 。 

除了 预测 分 析 ， 还 有 关联 分 析 。 关 联 分 析 的 目的 在 于 ， 找 出 数据 之 间 内 在 的 联系 。 比 如 ， 购 
物 篮 分 析 ， 即 消费 者 常常 会 同时 购买 哪些 产品 〈 例 如 游泳 裤 、 防 晒 霜 ) ， 从 而 有 助 于 商家 的 捆绑 
销售 。 


‖ 。 与 ”大 数据 与 云 计 算 的 关系 


大 数据 IT 架构 的 基本 特征 ， 首 先 必 须 是 可 以 横向 扩展 的 ， 因 为 单 点 的 技术 无 法 承受 大 数据 
的 要 求 。 既 然 实 现 了 通过 横向 扩展 的 架构 来 提升 性 能 ， 这 就 没有 必要 在 每 个 节点 上 花费 太 多 的 
钱 。 它 的 高 可 用 性 是 通过 软件 设计 和 架构 设计 来 实现 的 ， 而 不 是 通过 传统 的 高 性 能 、 高 可 用 性 的 
高 端 便 件 设备 来 实现 的 。 所 以 ， 从 技术 上 看 ， 大 数据 与 云 计算 的 关系 就 像 一 枚 硬币 的 正 反 面 一 样 
密 不 可 分 。 大 数据 必然 无 法 用 单 台 的 计算 机 进行 处 理 ， 必 须 采 用 分 布 式 架构 。 而 云 计 算 的 分 布 式 
处 理 、 云 存储 和 虚拟 化 技术 为 大 数据 提供 了 IT 基础 ， 保 证 了 大 数据 应 用 的 高 效 运行 。 
正如 图 1-2 所 示 ， 未 来 的 趋势 是 ， 云 计算 作为 计算 资源 的 底层 ， 支 撑 着 上 层 的 大 数据 处 理 ， 
而 大 数据 的 发 展 为 云 计 算 的 落地 找到 了 更 多 的 实际 应 用 。 大 数据 和 云 的 融合 将 是 重大 的 趋势 ， 这 
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两 个 技术 是 相辅相成 的 关系 。 从 目前 部 署 上 看 ， 大 概 70% 的 大 数据 系统 在 企业 的 内 部 ， 其 中 一 
些 是 在 企业 的 私有 云 上 。 当 然 ， 大 数据 也 可 以 部 署 在 公有 云 上 ， 比 如 : AWS、Azure 和 GCP 
(Google 云 平 台 ) 提供 了 Hadoop 基础 设施 服务 ，GCP、IBM、Oracle、Pivotal CF、Microsoft 
Azure 和 Qubole 提供 了 托管 式 Hadoop 服务 〈 平 台 即 服务 ) 。 有 些 IT 企业 也 提供 了 云 上 的 分 析 
即 服务 的 功能 。 还 有 一 种 大 数据 系统 部 署 是 在 一 体 机 上 ， 大 概 占 到 5% 左 右 的 市 场 份额 。 提 供 
Hadoop 一 体 机 的 厂商 有 DELL、EMC、ORACLE、Teradata 和 惠普 。 
我 们 以 Amazon 的 AWS 为 例 来 看 一 个 云 计 算 和 大 数据 结合 的 实例 。AWS 总 体 上 成 熟 度 很 

高 ， Netflix、Pinterest、Coursera 都 在 使 用 AWS。 如 图 1-3 所 示 ，S3 是 简单 面向 对 象 的 存储 ， 
DynamoDB 是 对 关系 型 数据 库 的 补充 ，Glacier 对 冷 数 据 做 归档 处 理 ，EC2 就 是 基础 的 虚拟 主 
机 ，Elastic MapReduce (EMR) 直接 打包 MapReduce 来 提供 计算 服务 ， 使 用 EMR 可 以 按 需 组 建 
-个 由 节点 组 成 的 集群 。 这 些 集群 用 于 Hadoop 的 安装 和 配置 。 Amazon 提供 了 非常 类 似 Kafka 
的 服务 ， 称 之 为 Kinesis。 它 同时 作为 使 用 EC2 进行 分 布 式 流 处 理 的 基础 。 


收集 接收 存储 分 析 
AWS Direct Connect Amazon Kinesis Amazon S3 Amazon Elastic Amazon 
MapReduce EC2 
哆 获 < 
as 
AWS ImporUExport > 
| Amaz Amazon AWSData 
DynamoD! Redshift Pipeline 
| SN 
Amazon K 
Glacier NY 
图 1-3 AWS 


1 ”大 数据 的 国家 战略 


斯 诺 登 效应 导致 政府 和 企业 对 信息 产品 的 安全 性 非常 关注 。 政 府 和 大 型 企业 已 经 将 关注 重点 
转移 向 开源 软件 上 ， 因 为 开源 软件 被 认为 是 更 加 透明 和 安全 的 。 这 是 以 Hadoop 为 代表 的 开源 软 
件 在 国内 发 光 发 热 的 大 机 遇 。 另 外 ，2015 年 8 月 19 日 ， 国 务 院 常 务 会 议 通过 了 《关于 促进 大 数 
据 发 展 的 行动 纲要 》。 会 议 强 调 : 一 要 推动 政府 信息 系统 和 公共 数据 互联 共享 ， 消 除 信息 孤岛 ， 
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加 快 整合 各 类 政府 信息 平台 ， 避 免 重 复 建设 和 数据 打架 ;二 要 顺应 潮流 引导 支持 大 数据 产业 发 
展 ， 以 企业 为 主体 、 以 市 场 为 导向 ， 加 大 政策 支持 ， 着 力 营造 宽松 公平 的 环境 ， 建 立 市 场 化 应 用 
机 制 ， 深 化 大 数据 在 各 行业 的 创新 应 用 ， 催 生 新 业态 、 新 模式 ， 形 成 与 需求 紧密 结合 的 大 数据 产 
品 体系 ， 使 开放 的 大 数据 成 为 促进 创业 创新 的 新 动力 ; 三 要 强化 信息 安全 保障 ， 完 善 产业 标准 体 
系 ， 依 法 依 规 打 击 数据 小 用、 侵犯 隐私 等 行为 。 让 各 类 主体 公平 分 享 大 数据 带 来 的 技术 、 制 度 和 
创新 红利 。 这 个 行动 纲要 明确 指出 推动 政府 大 数据 开放 、 共 享 和 安全 的 重要 性 。 

2016 年 3 月 17 日 发 布 的 “十 三 五 ”规划 纲要 中 指出 ， 实 施 国家 大 数据 战略 。 把 大 数据 作为 
基础 性 战略 资源 ， 全 面 实施 促进 大 数据 发 展 行动 ， 加 快 推动 数据 资源 共享 开放 和 开发 应 用 ， 助 力 
产业 转型 升级 和 社会 治理 创新 。 加 快 政府 数据 开放 共享 ， 全 面 推进 重点 领域 大 数据 高 效 采 集 、 有 
效 整合 ， 深 化 政府 数据 和 社会 数据 关联 分 析 、 融 合 利用 ， 提 高 宏观 调控 、 市 场 监管 、 社 会 治理 和 
公共 服务 精准 性 和 有 效 性 ， 依 托 政府 数据 统一 共享 交换 平台 ， 加 快 推进 跨 部 门 数 据 资源 共享 共 
用 。 加 快 建设 国家 政府 数据 统一 开放 平台 ， 推 动 政府 信息 系统 和 公共 数据 互联 开放 共享 。 制 定 政 
府 数据 共享 开放 目录 ， 依 法 推进 数据 资源 向 社会 开放 。 统 筹 布局 建设 国家 大 数据 平台 、 数 据 中 心 
等 基础 设施 。 


1.6.1 政府 大 数据 的 价值 


对 大 数据 企业 来 说 ， 目 前 遇 到 的 发 展 机 遇 已 经 十 分 清楚 。 行 动 纲要 的 三 个 关键 词 的 出 发 点 和 
落脚 点 都 指向 政府 大 数据 ， 关 于 政府 大 数据 的 开放 共享 ， 关 于 政府 大 数据 的 研究 与 应 用 ， 关 于 政 
府 大 数据 的 示范 效应 。 那 么 我 们 不 禁 要 问 ， 政 府 大 数据 的 价值 究竟 何在 ”为 什么 政府 大 数据 更 有 
价值 ? 这 就 要 从 数量 和 质量 两 个 层面 说 起 。 

就 数量 而 言 ， 或 诈 有 人 会 问 ， 政 府 数 据 的 数量 能 比 得 过 BAT 吗 ? 表面 上 看 ， 百 度 、 阿 里 和 
腾讯 都 分 别 拥有 数 以 亿 计 的 用 户 量 ， 但 这 与 政府 大 数据 相 比 ， 不 是 一 个 量 级 ， 可 谓 小 巫 见 大 巫 。 
阿里 巴巴 的 数据 容量 在 100PB 左右 ， 而 仅 一 个 北京 市 政府 就 拥有 几 百 个 PB 的 数据 容量 ， 相 当 于 
几 个 阿里 巴巴 。 这 还 仅仅 是 一 个 北京 市 政府 。 中 国有 几 百 个 城市 ， 几 千 个 行政 县 。 当 前 ， 中 央 和 
省 级 政务 部 门 的 电子 政务 覆盖 率 已 经 达到 70%。 粗 略 估算 ， 全 国政 府 大 数据 加 起 来 至 少 也 该 有 
数 百 甚至 上 千 个 阿里 巴巴 的 体 量 。 

至 于 政府 大 数据 的 质量 ， 我 们 也 可 以 通过 和 “BAT 企业 对 比 来 说 明 。 比 如 百度 ， 他 拥有 庞大 
的 用 户 搜索 记录 ， 但 这 些 数据 较为 单一 ， 不 进行 关联 应 用 毫 无 价值 ， 腾 讯 的 优势 在 于 拥有 数 亿 的 
QQ 和 微 信用 户 量 以 及 更 庞大 的 社交 数据 ， 但 这 些 数据 目前 仅 局 限于 营销 应 用 ; 阿里 的 交易 数据 
似乎 价值 更 高 ， 但 也 只 是 局 限 在 电 商 领域 以 及 外 延 应 用 。 换 名 话说 ， 这 三 家 BAT 企业 的 短 板 共 
同 点 在 于 数据 种 类 的 单一 化 程度 较 高 。 政 府 大 数据 不 同 ， 它 涉及 工商 、 税 务 、 司 法 、 交 通 、 医 
疗 、 教 育 、 通 信 、 人 金融 、 地 理 、 气 象 、 房 产 、 保 险 、 农 业 、 环 境 等 等 领域 ， 数 据 的 种 类 繁多 ， 关 
联 性 强 、 统 计 规 格 较为 统一 ， 便 于 应 用 处 理 。 政 府 的 数据 事 关 百姓 生活 的 方方面面 ， 数 据 的 利用 
价值 也 最 高 。 
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1.6.2 ”政府 大 数据 的 应 用 场景 


各 地 政府 都 非常 关注 政府 大 数据 。 比 如 : 为 推进 浙江 省 信息 资源 的 整合 开放 和 大 数据 产业 发 
展 ， 浙 江 省 政府 在 2015 年 成 立 了 浙江 省 数据 管理 中 心 。 浙 江 省 数据 管理 中 心 将 拟定 并 组 织 实施 
大 数据 发 展 规划 和 政策 措施 ， 研 究 制定 数据 资源 采集 、 应 用 、 共 享 等 标准 规范 ， 统 筹 推进 大 数据 
基础 设施 建设 、 管 理 ; 组 织 协调 大 数据 资源 归 集 整 合 、 共 享 开 放 ， 推 进 大 数据 应 用 ; 组织 协 调 大 
数据 信息 安全 保障 体系 建设 。 浙 江 省 政府 成 立 大 数据 发 展 领导 小 组 ， 负 责 大 数据 发 展 的 政策 制 
定 、 相 关 整 合 工 作 、 数 据 开放 共享 等 项 层 设计 职能 。 

中 国 对 政务 相关 的 政府 大 数据 产业 需求 是 非常 的 明显 。 由 于 全 国 各 地 区 信息 化 发 展 的 水 平 差 
异 较 大 ， 政 务 信 息 化 建设 也 存在 着 明显 的 区 域 差异 性 特征 。 国 务 院 通过 的 《行动 岗 要》 提出 ,“ 要 
推动 政府 信息 系统 和 公共 数据 互联 共享 ， 消 除 信息 孤岛 ,加快 整合 各 类 政府 信息 平台 ， 避 免 重复 
建设 和 数据 打架 ”， 主 要 针对 的 就 是 政务 数据 的 开放 共享 平台 而 言 的 。 很 多 地 市 正在 兴建 公共 信息 
服务 平台 ， 把 全 市 政府 资源 数据 集中 存储 和 统一 管理 。 一 些 省 市 已 经 设立 了 大 数据 管理 局 。 

除了 上 述 的 智慧 政务 之 外 ， 中 国政 府 大 数据 还 主要 应 用 于 以 下 领域 : 智慧 城市 、 公 共 服 务 、 
医疗 、 教 育 、 交 通 、 环 境 保护 、 能 源 等 ， 这 些 领域 大 多 涉及 国民 生活 和 城镇 化 进程 。 截 至 2016 年 
初 ， 中 国 的 智慧 城市 试点 已 达 193 个 ， 而 公开 宣布 建设 智慧 城市 的 城市 超过 400 个 ， 投 资 总 规模 
高 达 5000 亿 元 。 智 慧 城市 的 概念 包含 了 智慧 政务 、 智 慧 能 源 、 智 慧 交 通 、 智 慧 医疗 、 智 慧 环保 等 
多 领域 的 应 用 ， 而 这 些 都 要 依托 于 大 数据 ， 大 数据 产业 是 “智慧 ”的 源泉 ， 是 智慧 城市 的 推手 。 

有 专家 曾 将 目前 政府 大 数据 发 展现 状 看 作 是 城市 建设 自来水 管道 系统 时 期 。 每 个 城市 只 建 一 
套 自 来 水 供水 系统 ， 不 可 能 建 第 二 套 ， 所 以 ， 快 速 布 局 政府 大 数据 云 平 台 和 大 数据 管理 平台 是 大 
数据 基础 建设 的 第 一 步 ， 也 是 赢得 政府 大 数据 市 场 的 第 一 步 。 至 于 自来水 〈 即 : 平台 上 所 管理 的 
数据 ) 问题 ， 那 就 是 基础 建设 后 顺理成章 的 事 了 。 谁 拿 到 了 这 个 自来水 管道 建设 权 ， 谁 就 是 未 来 
的 数据 之 王 。 还 有 ， 大 数据 基础 建设 是 大 数据 行业 发 展 的 前 期 环节 ， 等 到 基础 环节 铺设 完善 ， 自 
来 水 得 以 通畅 流通 了 ， 那 时 政府 大 数据 的 价值 才 真 正 爆发 出 来 ， 那 就 进入 大 数据 商业 应 用 的 时 期 
了 。 大 数据 管道 建设 涉及 设计 和 技术 等 十 分 专业 的 工作 ， 政 府 的 策略 是 请 专业 公司 提供 大 数据 管 
理 平 台 ， 以 作为 大 数据 管道 和 基石 。 


] 。 企业 如 何 迎接 大 数据 


大 数据 问题 不 单单 发 生 在 互联 网 等 新 的 事物 的 数据 上 ， 有 很 多 问题 发 生 在 企业 的 传统 应 用 所 
产生 的 数据 上 。 随 着 数据 量 的 增长 ， 现 有 的 IT 架构 慢 慢 地 不 能 满足 其 要 求 。 也 就 是 说 ， 大 数据 
- 半 是 新 的 业务 ， 另 外 一 半 是 解决 传统 业务 的 性 能 问题 和 管理 数据 的 成 本 问题 。 比 如 ， 中 国 移动 
的 某 个 阅读 基地 ， 在 数据 库 上 的 数据 为 几 百 亿 行 ， 单 表 在 10 亿 行 左右 。 这 使 得 数据 库 系 统 经 常 
接近 骨 溃 的 边缘 ， 技 术 人 员 把 大 多 数 时 间 放 在 系统 管理 和 维护 上 。 从 2014 年 开始 ， 中 国 移动 的 
阅读 基地 把 数据 系统 移 向 Hadoop 系统 ， 从 而 彻底 解决 了 大 数据 量 所 引起 的 问题 。 
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大 数据 新 的 应 用 是 一 个 补充 ， 是 一 个 创新 应 用 ， 而 不 是 去 替换 传统 的 应 用 。 如 今 的 数据 是 多 
种 数据 的 混合 体 ， 它 不 能 事先 预知 数据 的 格式 和 形态 。 实 际 上 很 多 的 数据 可 能 不 是 由 企业 本 身 所 
拥有 的 ， 而 是 从 外 部 收集 或 购买 ， 这 样 的 话 ， 传 统 的 应 用 就 施展 不 开 了 。 

大 数据 不 应 该 只 是 IT 部 门 的 事情 ， 而 是 全 公司 协同 作战 的 事情 。 管 理 层 可 以 从 大 数据 中 获 
得 洞察 做 决策 ， 运 营 部 门 可 以 根据 数据 分 析 结果 来 改善 运营 策略 ， 市 场 部 门 可 以 从 数据 分 析 中 来 
优化 广告 投放 策略 ， 甚 至 是 客服 部 门 也 可 以 从 数据 分 析 结 果 中 来 优化 自己 的 工作 ， 更 别提 销售 部 
门 了 ， 他 们 更 需要 大 数据 的 支持 。 

大 数据 是 个 机 遇 ， 也 是 个 挑战 ， 它 是 一 个 用 传统 的 技术 方法 无 法 解决 的 数据 问题 ， 这 对 于 企 
业 来 说 是 一 个 挑战 。 企 业 要 迅速 接受 大 数据 的 概念 ， 这 不 单单 是 从 解决 现 有 的 IT 问题 的 角度 考 
虑 ， 更 多 的 应 该 从 未 来 的 新 的 利润 增 长 点 和 新 的 竞争 点 的 角度 来 考虑 ， 应 该 采用 非常 积极 的 态 
度 。 企 业 要 认识 到 大 数据 不 是 在 现 有 架构 上 新 增 应 用 ， 而 是 彻底 改变 现 有 架构 。 实 施 大 数据 前 确 
定 每 一 步 的 投资 规模 ， 设 立 里 程 碑 和 阶段 目标 ， 了 解 其 技术 和 商业 不 成 熟 性 可 能 带 来 的 失误 和 风 
险 ， 避 免 陷入 厂商 的 炒作 陷阱 。 从 IT 部 门 的 角度 来 看 ， 数 据 的 价值 应 该 说 是 由 业务 部 门 来 决定 
的 ， 所 以 必须 要 充分 了 解 业务 的 需求 。 

关于 大 数据 ， 企 业 首先 应 该 考虑 的 问题 不 是 这 些 数 据 能 为 我 赚 多 少 钱 ， 而 是 如 果 我 不 去 整合 
内 部 和 外 部 的 数据 、 存 储 数据 、 分 析 数 据 ， 那 么 未 来 我 会 失去 多 少 钱 ?我 会 比 竞争 对 手 落后 多 
少 ? 数据 的 整合 不 是 一 朝 一 夕 的 事情 ， 而 是 需要 经 过 一 段 时 间 的 累积 。 有 些 数 据 是 需要 从 其 他 汇 
道 拿 到 。 整 合 数据 和 数据 分 析 本 身 就 不 是 先 有 鸡 还 是 先 有 和 蛋 的 问题 ， 而 是 你 不 养 鸡 ， 你 肯定 就 不 
会 有 蛋 。 在 未 来 的 党 争 格局 中 ， 数 据 往往 能 发 挥 先发制人 的 作用 和 优势 。 


1.7.1 评估 大 数据 方案 的 维度 


对 于 企业 而 言 ， 构 建 大 数据 平台 ， 是 个 系统 性 的 工程 。 企 业 可 以 选择 以 增 量 方式 实现 大 数据 
解决 方案 。 不 是 每 个 分 析 和 报告 需求 都 需要 大 数据 解决 方案 。 随 着 大 数据 技术 的 到 来 ， 我 们 会 问 
自己 :“ 大 数据 是 否 是 我 的 业务 问题 的 正确 解决 方案 ， 或 者 它 是 否 为 我 提供 了 新 的 业务 机 会 ? ” 
“企业 IT 部 门 需要 掌握 哪些 技能 来 理解 和 分 析 软 件 厂商 的 大 数据 解决 方案 ?”” “ 现 有 企业 数据 
和 来 自 外 部 的 数据 的 复杂 性 ” “哪些 维度 可 帮助 评估 大 数据 解决 方案 的 可 行 性 ?”。 

为 了 回答 上 述 这 些 问 题 ， 业 内 专业 人 士 提出 了 以 下 多 种 维度 来 评估 大 数据 解决 方案 的 可 行 
性 。 企 业 应 该 依据 自身 业务 的 特点 ， 为 每 个 维度 分 配 一 个 权重 和 优先 级 。 


数据 整合 和 分 析 所 带 来 的 业务 价值 。 

数据 整合 (无论 是 新 来 源 的 数据 还 是 原 有 数据 ) 后 的 数据 治理 考虑 。 
企业 是 否 自己 拥有 大 数据 技术 人 员 ， 厂 商 是 否 有 足够 的 技术 支持 人 员 。 
整个 数据 量 。 

各 种 各 样 的 数据 源 、 数 据 类 型 和 数据 格式 。 

生成 数据 的 速度 ， 需 要 对 它 处 理 的 速度 。 

数据 的 真实 性 ， 或 者 数据 的 不 确定 性 和 可 信和 赖 性 。 
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1.7.2 ”业务 价值 维度 


许多 企业 想 知 道 ， 大 数据 产品 能 否 帮助 他 们 找到 业务 机 会 。 所 以 ， 业 务 价值 维度 是 指 通过 大 
数据 技术 可 以 为 企业 获取 哪些 新 业务 或 者 解决 哪些 现 有 的 问题 ? 这 需要 确定 和 识别 大 数据 的 业务 
场景 ， 并 给 出 关键 绩效 指标 。 这 包括 研究 竞争 对 手 的 行动 ， 知 晓 客户 在 寻找 什么 。 表 1-1 按照 行 
业 给 出 了 一 些 大 数据 的 应 用 示例 。 

表 1-1 分 行业 大 数据 的 应 用 示例 


业务 示例 


行业 
合 规 性 和 监管 报告 
风险 分 析 和 管理 
欺诈 检测 和 安全 分 析 
金融 服务 客户 忠诚 度 计划 
信用 风险 、 评 分 和 分 析 
交易 监管 
异常 交易 模式 分 析 


欺诈 管理 可 预测 给 定 交 易 或 客户 账户 过 到 炊 诈 的 可 能 性 。 大 数据 解决 方案 将 会 实时 分 析 交 
易 并 预警 ， 这 对 阻止 炊 诈 至 关 重要 。 这 些 炊 诈 类 型 有 : 
信用 卡 和 借 记 卡 炊 诈 
存款 账户 欺诈 
技术 欺诈 和 坏账 
欺诈 监测 民 六 卫 让 
医疗 补助 计划 和 医疗 保险 欺诈 
财产 和 灾害 保险 炊 诈 
工伤 赔偿 欺诈 
保险 欺诈 如: 汽车 保险 ) 
大 规模 点 击 流 分 析 
i 广告 投放 、 分 析 、 预 测 和 优化 
社交 图 分 析 和 概要 细 分 
营销 活动 管理 和 忠诚 度 分 析 
网 络 安 全 
公共 领域 合 规 性 和 监管 分 析 
能 耗 和 碳 排放 管理 
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( 续 表 ) 
业务 示例 


健康 保险 欺诈 检测 

营销 活动 和 销售 计划 优化 
品牌 管理 

患者 护理 质量 和 程序 分 析 
医疗 设备 和 药物 供应 链 管理 
药品 发 现 和 开发 分 析 


客户 流失 预防 

营销 活动 管理 和 客户 忠诚 度 分 析 
呼叫 详细 记录 (CDR) 分 析 

网 络 性 能 和 优化 
移动 用 户 位 置 分 析 


每 个 电网 包含 监视 电压 、 电 流 、 频 率 和 其 他 重要 操作 特征 的 复杂 传感器 。 分 析 发 电 《 供 
应 ) 和 电力 消耗 〈 需 求 ) 数据 。 分 析 智 慧 电 表 〈 也 适用 于 水 表 ) 的 数据 


推荐 引擎 : 通过 基于 对 交叉 销售 的 预测 分 析 来 推荐 产品 
下 一 款 最 佳 产品 : 结合 预测 模型 和 现 有 产品 销售 信息 ， 确 定 下 一 款 最 佳 产品 


营销 活动 管理 和 客户 忠诚 度 分 析 

供应 链 管 理 和 分 析 

市 场 和 用 户 细 分 

预测 分 析 : 在 产品 上 架 之 前 ， 预 测 对 购买 者 重要 的 一 些 因素 


。 ”整合 雾 者 监测 历史 数据 ， 同 步 集成 气象 、 遥 感 、 排 放 清 单 、 环 境 执法 数据 ， 形 成 雾 俐 
案例 知识 库 ， 开 展 雾 者 预 测 预警 服务 

。 ”利用 环境 违法 举报 、 互 联网 采集 等 环境 信息 采集 渠道 ， 结 合 企业 的 工商 、 税 务 、 质 检 
等 信息 ， 开 展 大 数据 分 析 ， 精 确 打击 企业 未 批 先 建 、 偷 排 漏 排 、 超 标 排放 等 违法 行为 


。 ”交友 网 站 : 分 析 各 个 成 员 之 间 的 兼容 性 ， 给 出 合理 的 推荐 
。 飞机 和 汽车 〈 尤 其 是 长 途 大 巴 ) 的 预测 性 维护 


1.7.3 ”数据 维度 


数据 维度 包括 数据 优先 级 维度 、 数 据 复杂 性 维度 、 数 据 量 维度 、 数 据 种 类 维度 、 数 据 处 理 速 
度 和 数据 可 信 度 。 
首先 要 为 企业 〈 或 政府 部 门 ) 的 现 有 数据 整理 出 一 个 编目 《清单 )， 用 于 识别 内 部 的 应 用 系 
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统 中 存在 的 数据 以 及 从 第 三 方 传 入 的 数据 。 如 果 业 务 问 题 可 使 用 现 有 数据 解决 ， 那 么 就 不 需要 使 
用 来 自 外 部 的 数据 。 有 些 客户 有 一 些 归档 数据 ， 分 析 归 档 数据 来 获得 新 的 业务 价值 。 在 有 些 时 
候 ， 包 括 日 志文 件 、 错 误 文件 和 来 自 应 用 程序 的 操作 数据 都 是 宝贵 信息 的 潜在 来 源 。 

其 次 要 确定 数据 复杂 性 是 否 在 增长 ?数据 复杂 性 的 增长 可 能 表现 在 数据 量 、 种 类 、 速 度 和 真 
实 性 方面 。 然 后 要 判断 数据 量 是 否 已 增长 ?如果 满足 以 下 条 件 ， 企 业 可 考虑 大 数据 解决 方案 : 


的 数据 。 


数据 大 小 达到 PB 和 EB 级 ， 而 且 未 来 有 可 能 增长 到 ZB 级 别 。 
数据 量 给 传统 系统 ( 比如 关系 型 数据 库 ) 的 存储 、 查 询 、 共 享 、 分 析 和 可 视 化 数据 带 
来 挑战 。 


还 有 一 点 是 ， 数 据 种 类 是 否 已 增多 ? 如 果 满 足以 下 条 件 ， 那 可 能 需要 大 数据 解决 方案 : 


数据 内 容 和 结构 无 法 预期 或 预测 。 

数据 格式 各 不 相同 ， 包 括 结构 化 、 半 结构 化 和 非 结构 化 数据 。 用 户 和 机 器 能 够 以 任何 
格式 生成 数据 ， 例 如 : Microsoft Word 文件 、Microsoft Excel 电子 表格 、Microsoft 
PowerPoint 演示 文稿 、PDF 文件 、 社 交 媒 体 、Web 和 软件 日 志 、 电 子 邮 件 、 来 自 相 
机 的 照片 和 视频 、 传 感 设备 数据 、 基 因 组 和 医疗 记录 。 

不 断 出 现 新 的 数据 类 型 。 


最 后 还 要 考虑 的 是 ， 数 据 的 增长 和 处 理 的 速度 。 是 否 需要 即时 响应 ， 是 否 需要 实时 处 理 传 入 


对 于 数据 是 否 值得 信赖 ， 如 果 满 足以 下 条 件 ， 那 么 需要 考虑 使 用 大 数据 解决 方案 : 
数据 的 真实 性 或 准确 性 未 知 。 

数据 包含 模糊 不 清 的 信息 。 

不 清楚 数据 是 否 完整 。 


如 果 数 据 的 量 、 种 类 、 速 度 或 真实 性 具有 合理 的 复杂 性 ， 那 么 就 采用 大 数据 解决 方案 。 对 于 
更 复杂 的 数据 ， 需 要 评估 与 实现 大 数据 解决 方案 关联 的 任何 风险 。 对 于 不 太 复杂 的 数据 ， 则 应 该 
评估 传统 的 解决 方案 。 


1.7.4 现 有 IT 环境 和 成 本 维度 


对 于 想 要 通过 大 数据 分 析 获 取 业 务 价值 的 情况 ， 我 们 还 要 考虑 当前 的 IT 环境 是 否 可 扩展 。 
与 企业 IT 部 门 沟通 ， 询 问 以 下 问题 ， 确 定 能 和 否 扩展 现 有 的 开平 台 ? 


当前 的 数据 集 是 否 非常 大 ， 是 否 达到 了 TB 或 PB 数量 级 ? 

现 有 的 数据 仓库 系统 是 否 包含 所 有 数据 ? 

是 否 有 大 量 冷 数据 (人 们 很 少 接触 的 数据 ) 未 分 析 ? 可 以 通过 分 析 这 些 数 据 获得 业务 
价值 吗 ? 

是 否 需 要 丢弃 数据 ， 因 为 无 法 存储 或 处 理 它 ? 

是 否 希 望 在 复杂 且 大 量 的 数据 上 执行 数据 探索 ? 
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@ ”是否 希望 对 非 结构 化 数据 进行 分 析 ? 


对 于 这 些 问 题 的 回答 ， 可 以 帮助 企业 判断 是 扩充 现 有 数据 仓库 系统 还 是 部 署 一 套 新 的 大 数 
据 平台 软件 。 还 有 一 点 ， 我 们 要 比较 这 两 个 方案 的 成 本 。 扩 展现 有 IT 环境 与 部 署 大 数据 系统 的 
成 本 和 可 行 性 取决 于 : 


现 有 工具 和 技术 。 

现 有 系统 的 可 伸缩 性 。 

现 有 环境 的 处 理 能 力 。 

现 有 平台 的 存储 能 力 。 

执行 的 治理 和 策略 。 

现 有 应 用 系统 的 异 构 性 。 

企业 IT 部 门 的 技术 能 力 (包括 为 此 需要 新 招 人 员 的 成 本 ) 。 
从 新 数据 源 收集 的 数据 量 和 成 本 。 

新 业务 的 复杂 性 。 


我 们 要 考虑 大 数据 工具 和 技术 需要 的 基础 架构 、 硬 件 、 软 件 和 维护 的 成 本 。 大 数据 解决 方案 
可 以 采用 增 量 方式 实现 。 明 确 地 定义 业务 问题 的 范围 ， 并 以 可 度量 的 方式 设置 预期 的 业务 收入 提 
升幅 度 。 企 业 可 仔细 列 出 问题 的 范围 和 解决 方案 带 来 的 预期 收益 。 如 果 该 范围 太 小 ， 业 务 收益 将 
无 法 实现 ， 如 果 范 围 太 大 ， 获 得 资金 和 在 恰当 的 期 限 内 完成 项 目 就 会 很 有 挑战 性 。 

对 于 成 本 维度 ， 我 们 还 需要 考虑 是 否 已 有 合适 的 技术 人 员 ? 大 数据 解决 方案 需要 特定 的 技能 
来 理解 和 分 析 大 数据 需求 ， 并 维护 大 数据 系统 。 这 些 技能 包括 行业 知识 、 领 域 专长 ， 以 及 有 关 大 
数据 工具 和 技术 的 知识 。 这 包括 大 数据 建 模 、 统 计 、 分 析 等 方面 的 能 力 。 在 实施 一 个 新 的 大 数据 
项 目 之 前 ， 确 保 已 安排 了 合适 的 人 员 ， 他 们 熟悉 该 领域 、 能 分 析 大 量 数据 ， 而 且 能 从 数据 生成 有 
意义 且 有 用 的 业务 机 会 。 


1.7.5 数据 治理 维度 


在 决定 是 否 实现 一 个 大 数据 平台 时 ， 企 业 要 特别 关注 那些 新 数据 源 和 新 的 数据 元 素 类 型 ， 这 
些 数据 所 有 权 可 能 尚未 明确 定义 。 国 家 的 一 些 规章 制度 可 能 会 禁止 企业 获取 和 使 用 的 数据 。 例 
如 ， 在 医疗 行业 ， 直 接 获 取 病 人 数据 是 否 合法 ?企业 的 业务 流程 可 能 需要 修改 ， 以 便 能 够 获取 、 
存储 和 访问 外 部 数据 。 下 面 是 一 些 数 据 治理 的 问题 。 
@ ”安全 性 和 隐私 : 在 不 违反 法 规 和 隐私 等 前 提 下 ， 可 以 访问 哪些 数据 ?可 以 存储 哪些 数 
据 ? 哪些 数据 应 加 密 ? 谁 可 以 查看 这 些 数据 ? 
@ ”数据 的 标准 化 :数据 是 否 有 标准 格式 ? 是 否 有 专用 的 格式 ?部 分 数据 是 否 为 非 标准 格 
式 ? 
@ ”数据 可 用 的 时 段 : 数据 是 否 只 在 一 个 允许 的 时 段 才 可 用 ? 
@ ”数据 的 所 有 权 : 谁 拥有 该 数据 ? 是 否 拥有 适当 的 访问 权 和 权限 来 使 用 数据 ? 
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@ ”允许 的 用 法 : 允许 如 何 使 用 该 数据 ? 


总 之 ， 不 是 所 有 大 数据 情形 都 需要 大 数据 解决 方案 。 竞 争 对 手 在 做 什么 ?哪些 市 场 力 量 在 发 
挥 作用 ? 客户 想 要 什么 ? 使 用 上 面 的 几 个 维度 ， 可 以 帮助 企业 确定 大 数据 解决 方案 是 否 适合 它 的 
业务 情形 。 


] .号 ”大 数据 产业 链 分 析 


大 数据 不 仅 是 一 个 热门 词汇 ， 更 代表 着 一 个 欣欣 向 荣 的 产业 。2015 年 8 月 ， 国 务 院 常务 会 
议 通 过 了 《关于 促进 大 数据 发 展 的 行动 纲要 》， 纲 要 从 国家 大 数据 发 展 战略 全 局 的 高 度 ， 提 出 了 
我 国 大 数据 发 展 的 顶层 设计 ， 将 大 数据 定 为 驱动 经 济 增长 和 社会 进步 的 重要 基础 国家 战略 资源 。 
中 国 的 大 数据 产业 是 一 片 广阔 的 蓝海 ， 从 与 每 个 人 密 不 可 分 的 健康 医疗 到 金融 个 人 征 信 ， 正 融入 
社会 经 济 发 展 的 方方面面 。 据 分 析 预 测 ， 大 数据 应 用 将 在 国内 十 多 个 领域 有 很 大 的 发 展 ， 涵 盖 万 
亿 市 场 。 最 精炼 的 总 结 正如 马云 所 提出 来 的 一 一 “未 来 最 重要 的 能 源 不 是 石油 ， 而 是 数据 ” 并 
且 ， 大 数据 产业 的 核心 是 推动 数据 资源 共享 与 开放 ， 单 一 的 公司 是 很 难 发 展 的 ， 因 为 在 数据 领域 
里 面 单一 公司 所 需要 获得 的 数据 是 需要 大 量 的 公司 去 提供 。 通 过 大 数据 资源 的 开放 共享 ， 才 能 更 
好 地 推动 大 众 创 业 、 万 众 创新 。 此 外 ， 作 为 云 计 算 、 大 数据 基础 的 数据 中 心 耗 能 巨大 ， 绿 色 数 据 
中 心 技 术 将 成 为 全 球 数据 产业 的 生命 线 。 

各 地 都 在 布局 大 数据 产业 。 比 如 ，2014 年 武汉 市 政府 出 台 《 武 汉 市 大 数据 产业 发 展 行动 计 
划 (2014 一 2018 年 ) 》， 通 过 构建 “2+7+N” 的 大 数据 产业 发 展 格局 ， 以 “中 国 :武汉 光 谷 ”为 
核心 ， 全 面 推进 武汉 市 大 数据 产业 发 展 战略 ， 重 点 发 展 左 岭 大 数据 产业 园 等 多 个 产业 基地 ， 形 成 
丰富 的 大 数据 资源 聚集 地 和 完善 的 产业 链 ， 建 成 国内 领先 、 国 际 知名 的 大 数据 产业 和 数据 资源 聚 
集 “ 洼 地 ”。 到 2018 年 ， 实 现 武汉 市 大 数据 产业 产值 规模 2000 亿 元， 带动 相关 产业 新 增 销售 收 
入 过 万 亿 元 ， 大 数据 成 为 武汉 市 经 济 社会 发 展 的 新 引擎 。 


1.8.1 技术 分 析 


从 技术 实施 的 层次 上 ， 我 们 把 整个 大 数据 产业 链 (或 大 数据 市 场 ) 分 为 以 下 四 个 层面 ， 如 图 
14 所 示 。 
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大 数据 应 用 政府 、 金 融 、 运 营 商 、 互 联网 等 ) 、 大 数据 交易 、 大 数据 运营 


大 数据 分 析 工 具 〈 数 据 处 理 、 数 据 挖 据 、 可 视 化 、 模 型 预测 ) 


基础 软件 平台 数据 采集 、 内 容 管理 、 数 据 库 ) 


基础 设施 (计算 、 存 储 和 网 络 ) 


1-4 大 数据 产业 链 


最 底层 是 同 硬件 相关 的 基础 设施 层 。 最 上 层 是 同行 业 相 关 的 大 数据 应 用 层 ， 它 需要 行业 的 专 
业 知 识 ， 使 用 大 数据 技术 来 实施 。 在 有 些 研究 机 构 中 ， 中 间 的 两 层 被 认为 是 一 层 。 我 们 认为 ， 基 
础 软件 平台 完成 数据 的 汇聚 ， 形 成 企业 的 大 数据 管理 层 (国外 也 有 人 把 它 叫 做 数据 湖 ，Data 
Lake) 。 在 实施 了 这 一 层 之 后 ， 企 业 或 政府 单位 的 数据 已 经 在 一 个 统一 平台 上 了 ， 完 成 了 “数据 
即 服务 ” 的 基础 平台 ， 实 现 了 全 域 的 数据 层 。 打 个 生活 中 做 饭 的 比方 ， 我 们 已 经 把 油 盐 着 醋 、 蔬 
菜 肉 类 鱼 类 等 食材 和 调料 ， 都 放 在 冰箱 里 了 。 延 续 上 面 的 比方 ， 那 么 ， 大 数据 分 析 工 具 就 是 做 饭 
的 菜刀 、 锅 、 搅 拌 器 等 等 工具 。 工 具 的 好 坏 ， 决 定 了 数据 处 理 和 挖掘 的 效率 和 结果 。 大 数据 分 析 
工具 市 场 是 一 个 竞争 化 的 市 场 ， 既 有 一 些 新 创立 的 小 企业 的 参与 ， 也 有 一 些 类 似 于 谷歌 、 微 软 、 
IBM 等 的 行业 龙头 的 参与 。 大 数据 分 析 工 具 的 需求 是 否 还 会 一 直 持续 下 去 ， 是 否 会 进入 一 个 成 
熟 阶段 是 值得 我 们 观察 的 。 

从 2015 年 的 下 半年 开始 ， 随 着 数据 的 积累 ， 大 数据 的 逐渐 深入 ， 越 来 越 多 的 行业 客户 
〈 如 : 银行 、 政 府 相关 职能 部 门 ) 清楚 了 大 数据 的 价值 ， 也 清楚 了 大 数据 适用 的 边界 。 我 们 已 经 
明显 感觉 市 场 在 逐渐 成 熟 ， 开 始 有 正规 的 独立 大 数据 项 目 开 始 招标 了 ， 这 意味 着 行业 客户 已 经 成 
熟 。 随 着 明确 稳定 的 需求 的 出 现 ， 整 个 大 数据 的 商业 模型 就 越 来 越 清晰 ， 大 数据 市 场 进 入 了 一 个 
新 的 阶段 。 


1.8.2 角色 分 析 


整个 大 数据 产业 链 ， 可 以 分 成 这 样 四 种 角色 : 数据 提供 商 ， 算 法 提供 商 ， 数 据 优化 提供 商 和 
应 用 提供 商 。 


1. 数据 提供 商 


- 般 都 是 由 于 拥有 某 种 入 口 资源 〈 比 如 : 运营 商 、 电 商 等 )， 经 过 了 数 年 ， 甚 至 十 数 年 的 积 
累 ， 形 成 了 在 某 一 领域 、 某 一 行业 独特 的 数据 资源 优势 。 数 据 提供 商 可 以 将 数据 提供 给 第 三 方 使 
用 ， 从 而 将 资源 优势 转化 成 实际 的 收益 。 由 于 分 工 的 细 化 ， 数 据 提供 商 未 必 自己 去 做 产业 链 的 其 
他 角色 。 当 然 ， 随 着 数据 成 本 的 日 益 增 高 ， 数 据 将 越 来 越 汇聚 到 几 家 巨头 手 里 ， 而 形成 几 家 数据 
寡头 为 中 心 ， 数 家 各 领域 各 行业 华 断 企业 为 补充 的 格局 。 

数据 提供 商 领域 依旧 属于 市 场 初期 。 目 前 没有 任何 一 家 数据 提供 商 可 以 提供 所 有 维度 的 数 
据 ， 每 家 都 只 拥有 部 分 数据 。 现 在 最 时 此 的 各 家 的 “用 户 画 像 ” 也 只 是 盲人 摸 象 。 距 离 真相 ， 还 
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有 一 定 的 距离 。 一 些 大 数据 企业 寻找 定位 某 一 个 行业 ， 苦 练 内 功 ， 成 为 该 行业 的 大 数据 的 应 用 服 
务 提供 商 。 从 而 间接 地 成 为 数据 提供 商 〈 因 为 数据 还 是 属于 购买 其 应 用 的 客户 ， 所 以 还 是 蔡 客 户 
操办 的 数据 提供 商 )。 


2. 算法 提供 商 

这 些 企业 虽然 没有 数据 ， 但 具有 行业 丰富 的 经 验 和 背景 ， 可 以 为 客户 提供 很 好 的 算法 服务 。 
目前 在 各 个 行业 都 有 一 些 独立 的 第 三 方 算法 服务 提供 商 。 算 法 提供 商 将 会 随 着 行业 应 用 的 深化 不 
断 地 强化 自身 在 行业 的 优势 ， 对 后 来 者 筑 起 壁垒 。 而 且 ， 随 着 在 行业 经 验 的 积累 ， 算 法 提供 商 是 
最 容易 成 为 应 用 服务 提供 商 的 ， 也 可 能 会 被 应 用 服务 提供 商 所 取代 ， 不 会 以 单独 的 形式 存在 。 随 
着 行业 应 用 的 深入 ， 每 个 行业 逐渐 也 会 形成 几 家 独 大 的 格局 。 由 算法 提供 商 演变 的 应 用 提供 商 势 
必 会 给 后 来 的 单纯 算法 提供 商 造成 很 大 的 壁垒 。 所 以 ， 单 纯 的 算法 提供 商 在 未 来 几 年 内 可 能 会 ; 
渐 淡 出 。 

3. 数据 优化 提供 商 

这 一 角色 也 没有 数据 ， 它 需要 从 数据 提供 方 买 来 数据 (或 者 由 需求 方 提供 数据 )， 然 后 按照 
需求 方 的 要 求 ， 将 数据 整理 、 优 化 ， 交 付 给 甲 方 。 至 于 甲 方 如 何 来 使 用 ， 它 并 不 介入 。 数 据 优化 
提供 商 既 没有 足够 的 数据 资源 ， 又 没有 算法 提供 商 强大 的 算法 和 行业 洞察 能 力 ， 所 以 只 能 做 些 低 
附加 值 的 技术 劳务 输出 。 虽 然 数 据 优化 服务 提供 商 低 端 ， 但 在 整个 的 产业 链 里 还 不 容易 被 取代 。 
随 着 产业 链 的 日 益 成 熟 、 分 工 的 日 益 细 化 ， 数 据 优化 服务 提供 商 可 能 作为 一 个 环节 独立 存在 ， 而 
不 是 作为 数据 提供 商 的 一 环 。 这 一 角色 ， 需 要 精通 各 种 大 数据 的 模型 、 算 法 ， 也 需要 了 解 不 同 数 
据 的 特点 ， 从 而 可 以 根据 用 户 的 需求 ， 为 用 户 “ 优 化 ”出 符合 他 们 需求 的 数据 。 


4. 应 用 提供 商 


这 一 角色 又 叫 解决 方案 提供 商 ， 是 离 客户 最 近 的 一 个 环节 ， 也 是 最 能 体现 价值 的 一 个 环节 。 
对 客户 而 言 ， 他 并 不 关心 大 数据 到 底 有 多 大 ， 数 据 是 否 足够 优化 ， 算 法 是 否 足 够 科学 。 他 关心 的 
是 ， 能 否 为 他 解决 实际 的 问题 。 从 这 一 点 上 来 看 ， 应 用 提供 商 颇 似 一 个 系统 集成 商 。 它 需要 根据 
用 户 的 实际 需求 ， 去 判断 需要 准备 什么 样 的 数据 ， 需 要 采用 什么 样 的 算法 ， 需 要 将 数据 如 何 优 
化 ， 以 便 达 到 最 优 的 效果 ， 帮 助 客户 解决 什么 样 的 实际 问题 。 应 用 提供 商 需要 清楚 地 知道 哪些 是 
大 数据 能 做 到 的 ， 哪 些 是 大 数据 做 不 到 的 。 大 数据 不 是 万 能 的 ， 他 需要 懂得 约束 客户 的 需求 和 预 
期 。 

按照 上 节 中 的 技术 分 析 ， 应 用 提供 商 可 按照 技术 层次 细 分 为 多 个 角色 。 应 用 提供 商 是 大 数据 
市 场 最 关键 的 角色 。 数 据 终究 是 原材料 ， 能 否 做 出 一 桌 好 菜 ， 还 要 看 厨师 的 手艺 。 对 行业 的 洞察 
力 和 经 验 ， 就 是 对 火候 的 掌握 ， 就 是 厨师 的 手艺 。 

大 数据 不 但 有 用 ， 而 且 确 确实 实 可 以 赚钱 。 数 据 作为 未 来 企业 的 战略 资源 ， 的 确 有 着 毋庸 置 
疑 的 重要 性 ， 但 不 至 于 没有 数据 ， 就 寸步 难 行 ， 还 没 到 那 种 “得 数据 者 得 天 下 ”的 地 步 。 

上 面 将 整个 大 数据 产业 链 划分 成 了 四 种 角色 。 要 想 在 大 数据 市 场 上 立足 ， 需 要 先 明白 自己 属 
于 哪个 角色 。 清 楚 了 自己 的 身份 ， 清 楚 自 己 在 产业 链 的 位 置 。 继 而 沿 着 自己 既定 的 发 展 方向 坚定 
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不 移 地 走 下 去 。 接 下 来 要 做 的 就 是 积累 ， 不 断 地 积累 和 优化 ， 不 断 地 进步 ， 争 取 做 到 各 自 领域 的 
领头 羊 。 想 在 大 数据 市 场 上 谋 有 一 席 之 地 ， 最 终 靠 的 还 是 实力 。 

今天 大 数据 公司 应 该 做 的 就 是 两 件 事 : 数据 和 能 力 。 对 于 一 个 大 数据 公司 ， 你 要 么 有 数据 ， 
要 么 有 管理 和 处 理 数据 的 能 力 。 没 有 数据 这 个 生产 材料 ， 肯 定 无 法 做 大 数据 运营 ; 如 果 没有 足够 
的 驾驭 数据 的 能 力 ， 做 不 出 客户 满意 的 效果 ， 也 终 将 会 被 市 场所 淘汰 。2016 年 ， 将 会 是 大 数据 
领域 重要 的 一 年 ， 很 有 可 能 将 迎 来 多 年 我 们 企盼 的 拐点 的 到 来 。 而 2016 年 也 将 是 各 路 诸侯 确立 
自己 江湖 地 位 的 一 年 ， 可 以 预见 ，2016 之 后 ， 再 无 大 的 格局 之 战 ! 


1.8.3 ”大 数据 运营 


随 着 大 数据 概念 的 提出 ， 大 数据 运营 公司 也 犹如 雨后春笋 般 出 现 。 大 数据 运营 貌似 很 容易 ， 
我 们 只 需要 : 


(1) 一 套 大 数据 工具 
(2) 一 个 或 多 个 分 析 算 法 
(3) 海量 的 数据 


那么 ， 对 于 大 数据 运营 公司 ， 该 如 何 找到 数据 呢 ? 通常 有 以 下 几 个 方面 : 

@@ ”相信 开放 数据 

不 论 现在 或 是 将 来 ， 这 些 企业 相信 开放 数据 ， 等 待 着 政府 开放 更 多 的 数据 。 这 个 方法 的 主要 
缺点 是 数据 的 开放 范围 往往 有 限 。 

@ 自己 寻找 数据 


通过 网 络 息 虫 等 工具 来 捕获 数据 。 这 个 方法 的 主要 缺点 是 ， 也 许 那 些 客户 真正 感 兴趣 的 数据 
并 不 在 这 个 网 上 。 


@ ”在 大 企业 中 寻找 数据 


首先 ， 他 提出 一 个 问题 的 可 能 的 解决 方案 例如， 减少 欺诈 行为 ， 提 高 你 的 广告 购买 的 投 
入 ， 增 加 你 的 邮件 营销 途径 ， 采 购 性 价 比 更 好 的 原材料 ， 等 等 ) ， 接 着， 他 说 服 一 个 企业 来 提供 
数据 ， 并 为 客户 实际 解决 一 个 有 价值 的 大 数据 问题 。 


@ ”购买 数据 
比如 : 通过 大 数据 交易 所 购买 数据 。 


籽 
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1 .日 、 大 数据 交易 


大 数据 是 国家 基础 性 战略 资源 ， 大 数据 发 展 已 成 为 国家 战略 ， 呈 现 良 好 的 发 展 趋势 。 研 究 
料 显示 ，2011 年 至 2015 年 全 球 大 数据 产业 年 均 复合 增长 率 达 到 30%， 其 中 中 国 市 场 增 速 高 达 
50%。 预 计 2016 年 至 2020 年 ， 中 国 大 数据 产业 仍 将 保持 30% 以 上 的 年 均 复合 增长 率 ， 是 同期 
IT 市 场 年 均 复合 增长 率 的 两 倍 〈12%) 。 未 来 5~10 年 将 是 大 数据 发 展 的 时 间 窗 口 。 

各 地 的 数据 资源 非常 丰富 ， 已 经 积累 并 继续 产生 庞大 的 数据 资源 。 以 上 海 为 例 ， 上 海 的 医 联 
数据 共享 系统 包含 了 近 40 家 市 级 医院 ， 接 入 了 200 多 个 系统 ， 有 4000 余 万 的 患者 健康 档案 和 电 
子 病历 。 上 海 还 有 4800 万 张 交通 卡 、 每 天 30GB 交通 流量 信息 数据 。 

随 着 国家 “互联 网 +” 的 推进 ， 大 数据 产业 的 价值 正在 凸显 。2015 年 4 月 14 日 ， 全 国 首 家 
大 数据 交易 所 落户 贵阳 ， 此 后 ， 不 少 城市 〈 如 : 武汉 、 上 海 等 ) 设立 大 数据 交易 系统 。 用 于 交易 
的 数据 有 很 多 ， 包 括 来 自 于 通信 运营 商 的 数据 ， 广 告 类 、 能 源 类 的 数据 ， 以 及 市 场 采集 的 各 种 数 


据 。 


资 


虽然 大 数据 交易 已 经 呈现 良好 的 发 展 趋 势 ， 但 也 存在 一 些 主要 问题 和 不 足 。 比 如 : 大 数据 资 
源 主要 集中 在 政府 部 门 、 公 用 事业 单位 和 国有 企业 ， 数 据 开放 程度 不 够 ， 而 市 场 数据 资源 的 流通 
性 不 够 ， 因 为 缺乏 流通 规则 ， 无 法 深入 加 工 。 同 时 ， 大 数据 深度 应 用 少 。 虽 然 业 界 普遍 认为 大 数 
据 应 用 和 产业 发 展 潜力 巨大 ， 但 现 阶段 金融 、 商 贸 、 交 通 、 医 疗 、 制 造 、 能 源 等 行业 缺乏 应 用 。 
最 后 ， 则 是 大 数据 产业 集聚 度 不 高 、 创 业 氛 围 不 够 活跃 。 当 前 全 国 大 数据 企业 大 概 有 500 家 左 
右 ， 大 数据 产业 发 展 较 好 的 园区 数量 其 少 ， 只 有 武汉 东湖 高 新 技术 开发 区 、 上 海 市 北 高 新 园区 等 
极 少 园 区 开辟 了 专门 园区 来 旺 化 大 数据 产业 。 此 外 ， 产 业 政策 、 知 识 产 权 、 技 术 标准 等 方面 还 存 
在 不 少 差距 。 

大 数据 交易 也 涉及 许多 新 的 理论 问题 需要 解决 。 正 如 华东 政法 大 学 知识 产权 学 院 院 长 高 富平 
指出 ， 大 数据 交易 中 的 各 种 数据 需要 清晰 界定 ， 弄 清楚 来 源 及 其 合法 性 ， 是 否 涉及 个 人 信息 、 商 


业 秘 密 、 


家 秘密 等 。 如 果 涉 及 个 人 隐私 信息 、 商 业 秘 密 和 国家 秘密 信息 ， 那 么 该 数据 不 可 


交 


易 ;， 如果 涉及 个 人 信息 ， 那 么 需要 进行 去 身份 化 处 理 ， 才 能 进入 交易 。 这 是 大 数据 交易 最 难 的 部 
分 ， 需 要 进行 研究 ， 制 定 详细 的 规则 才能 进行 。 再 比如 ， 数 据 的 使 用 不 具有 排他 性 ， 如 何 界定 转 
让 人 与 受 让 人 之 间 、 使 用 人 与 其 他 使 用 人 之 间 的 关系 ， 就 需要 建立 数据 交易 规则 。 为 了 促进 大 数 
据 产业 的 发 展 ， 人 迫切 需要 国家 制定 相关 法 律 ， 规 范 数据 采集 、 流 通 与 应 用 ， 保 护 数据 产权 、 安 全 
和 隐私 。 很 多 有 识 之 士 就 提出 了 “关于 制定 大 数据 法 的 议案 ”。 他 们 认为 : 开发 数据 下 的 数据 
交易 在 法 律 不 完善 的 情况 下 将 带 来 许多 问题 。 其 中 包括 交易 的 模式 、 交 易 的 公平 性 、 透 明 性 、 交 
易 的 技术 保障 、 交 易 的 法 律 法 规 、 知 识 产 权 等 等 。 在 上 述 内容 没 有 清晰 之 前 ， 数 据 交易 一 定 会 出 
现 “数据 买卖 ” 乱 象 。 


.1 OO 大 数据 之 我 见 


从 技术 层面 看 ， 大 数据 分 析 = 数据 + 算法 。 如 果 算 法 有 了 ， 就 缺 数据 。 数 据 如 果 是 分 散 
的 ， 需 要 数据 整合 平台 ; 数据 可 能 还 是 别人 的 ， 需 要 数据 交易 所 。 算 法 怎么 来 ? 一 个 是 自己 的 行 
业 积 累 ， 一 个 是 业界 的 公认 算法 。 一 些 行业 ， 比 如 ， 金 融 行 业 ， 业 界 已 经 出 了 不 少 的 算法 ， 不 需 
要 我 们 自己 折腾 了 。 另 外 一 些 行业 ， 算 法 可 能 还 在 摸索 阶段 。 

数据 整合 平台 怎么 做 ? 本 书 的 前 面 9 章 都 是 在 讲 数据 整合 的 各 个 步骤 ， 以 及 相关 的 产品 和 技 
术 。 第 10 章 重 点 讲 了 已 经 有 的 算法 和 它们 的 用 法 。 弄 清楚 了 这 些 ， 技 术 上 的 大 数据 分 析 就 清楚 
了 。 归 根 到 底 ， 就 是 怎么 弄 数据 了 ， 到 时 候 才 真正 地 到 了 “数据 为 王 ” 的 时 代 了 。 
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这 是 一 个 大 数据 时 代 ， 而 Hadoop 就 是 为 了 大 数据 应 运 而 生 。Hadoop 是 Apache 的 子 项 目 ， 
是 一 个 分 布 式 系统 基础 架构 ， 它 主要 是 用 于 大 数据 的 处 理 。 比 如 : 如 果 你 要 在 一 个 50TB 的 巨 
型 文件 中 查找 内 容 ， 会 出 现 什么 情况 ? 在 传统 的 系统 上 ， 这 将 需要 很 长 的 时 间 ， 但 是 Hadoop 
在 设计 时 就 考虑 到 这 些 问 题 ， 采 用 分 布 式 存储 和 并 行 执行 机 制 。Hadoop 所 提供 的 分 布 式 文件 系 
统 (HDFS) 实现 了 大 规模 的 存储 (在 所 有 计算 节点 上 分 布 式 存储 50TB 数据 )， 这 为 整个 集群 带 
来 了 非常 高 的 带宽 ， 因 此 能 大 大 提高 效率 。Hadoop 可 以 让 用 户 在 不 了 解 分 布 式 底层 细节 的 情况 
下 ， 开 发 分 布 式 程序 ， 充 分 利用 集群 的 威力 进行 高 速 运算 和 存储 。 对 于 大 数据 而 言 ，Hadoop 就 
是 用 大 量 的 廉价 机 器 组 成 的 集群 去 执行 大 规模 运算 ， 这 包括 大 规模 的 计算 和 大 规模 的 存储 。 


Hadoop 框架 


近年 来 ，Hadoop 已 经 逐渐 成 为 大 数据 分 析 领 域 最 受 欢 迎 的 解决 方案 ， 像 eBay 这 样 大 型 的 电 
子 商 务 企业 ， 一 直 在 使 用 Hadoop 技术 从 数据 中 挖掘 价值 ， 例 如 ， 通 过 大 数据 提高 用 户 的 搜索 体 
验 ， 识 别 和 优化 精准 广告 投放 ， 以 及 通过 点 击 率 分 析 以 理解 用 户 如 何 使 用 它 的 在 线 市 场 平 台 等 。 
目前 ，eBay 的 Hadoop 集群 总 节点 数 超过 10000 多 个 ， 存 储 容量 超过 170PB。 

Hadoop 框架 是 用 Java 编写 的 ， 它 的 核心 是 HDFS (Hadoop 分 布 式 文件 系统 ) 和 
MapReduce。HDFS 为 大 数据 提供 了 存储 ，MapReduce 为 大 数据 提供 了 计算 。HDFS 可 以 保存 比 
-个 机 器 的 可 用 存储 空间 更 大 的 文件 ， 这 是 因为 HDFS 是 一 套 具备 可 扩展 能 力 的 存储 平台 ， 能 
够 将 数据 分 发 至 成 千 上 万 个 分 布 式 节点 及 低 成 本 服务 器 之 上 ， 并 让 这 些 硬件 设备 以 并 行 方式 共同 
处 理 同 一 任务 。Hadoop 框架 实现 了 名 为 MapReduce 的 编程 范式 ， 这 个 范式 实现 了 大 规模 的 计 
算 : 应 用 程序 被 分 割 成 许多 小 部 分 ， 而 每 个 部 分 在 集群 中 的 节点 上 并 行 执行 (每 个 节点 处 理 自己 
数据 )。MapReduce 和 分 布 式 文件 系统 的 设计 ， 使 得 应 用 程序 能 够 在 成 千 上 万 的 独立 计算 的 电 
脑 上 运行 并 操纵 PB 级 的 数据 。 
Hadoop 框架 包括 Hadoop 内 核 、MapReduce、HDFS 和 Hadoop YARN 等 。Hadoop 也 是 一 个 
生态 系统 ， 在 这 里 面 有 很 多 的 组 件 。 除 了 HDFS 和 MapReduce， 有 NoSQL 数据 库 的 HBase， 有 
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数据 仓库 工具 Hive， 有 Pig 工作 流 语言 ， 有 机 器 学 习 算 法 库 Mahout， 在 分 布 式 系统 中 扮演 重要 
角色 的 Zookeeper， 有 内 存 计算 框架 的 Spark， 有 数据 采集 的 Flume 和 Kafka。 总 之 ， 用 户 可 以 
在 Hadoop 平台 上 开发 和 部 署 任何 大 数据 应 用 程序 。 


2.1.1 HDFS (分 布 式 文件 系统 ) 


HDFS 是 Hadoop Distribute File System (Hadoop 分 布 式 文件 系统 ) 的 简称 ， 是 Hadoop 的 一 
个 分 布 式 文件 系统 。HDFS 是 一 个 可 运行 在 廉价 机 器 上 的 可 容错 分 布 式 文件 系统 。 它 既 有 分 布 式 
文件 系统 的 共同 点 ， 又 有 自己 的 一 些 明 显 的 特征 。 在 海量 数据 的 处 理 中 ， 我 们 经 常 碰 到 一 些 大 文 
件 〈 几 百 GB 甚至 TB 级 别 )。 在 常规 的 系统 上 ， 这 些 大 文件 的 读 和 写 需要 花费 大 量 的 时 间 。 
HDFS 优化 了 大 文件 的 流 式 读 取 方 式 ， 它 把 一 个 大 文件 分 割 成 一 个 或 者 多 个 数据 块 〈 默 认 的 大 小 
为 64MB)， 分 发 到 集群 的 节点 上 ， 从 而 实现 了 高 吞吐 量 的 数据 访问 ， 这 个 集群 拥有 数 百 个 节 
点 ， 并 支持 千 万 级 别 的 文件 。 因 此 ，HDFS 非常 适合 大 规模 数据 集 上 的 应 用 。 

HDFS 设计 者 认为 硬件 故障 是 经 常 发生 的 ， 所 以 采用 了 块 复制 的 概念 ， 让 数据 在 集群 的 节点 
间 进 行 复制 (HDFS 有 一 个 复制 因子 参数 ， 默 认为 3)， 从 而 实现 了 一 个 高 度 容错 性 的 系统 。 当 
硬件 出 现 故障 〈 如 : 硬盘 坏 了 ) 的 时 候 ， 复 制 的 数据 就 可 以 保证 数据 的 高 可 用 性 。 正 是 因为 这 个 
容错 的 特点 ，HDFS 适合 部 署 在 廉价 的 机 器 上 。 当 然 ， 一 块 数据 和 它 的 备份 不 能 放 在 同一 个 机 器 
上 ， 香 则 这 人 台 机 器 挂 了 ， 备 份 也 同样 没 办 法 找到 。HDFS 使 用 一 种 机 架 位 感知 的 办 法 ， 先 把 一 
份 拷贝 放 入 同 机 架 上 的 机 器 ， 然 后 再 拷贝 一 份 到 其 他 服务 器 ， 这 台 服 务 器 也 许 是 位 于 不 同 数据 中 
心 的 ， 这 样 ， 如 果 某 个 数据 点 坏 了 ， 就 从 另 一 个 机 架 上 调用 。 除 了 机 架 位 感知 的 办 法 ， 现 在 还 有 
基于 erasure code〈 一 种 编码 存储 技术 ) 的 方法 。 这 种 方法 本 来 是 用 于 通信 容错 领域 的 办 法 ， 可 
以 节约 空间 又 达到 容错 的 目的 ， 感 兴趣 的 读者 可 以 去 查询 相关 材料 。 

HDFS 是 一 个 主 从 结构 。 如 图 2-1 所 示 ， 一 个 HDFS 集群 是 由 一 个 名 字 节 点 (NameNode) 
和 多 个 数据 节点 (DataNode) 组 成 ， 它 们 通常 配置 在 不 同 的 机 器 上 。HDFS 将 一 个 文件 分 割 成 一 
个 或 多 个 块 ， 这 些 块 被 存储 在 一 组 数据 节点 中 。 名 字 节 点 用 来 操作 文件 命名 空间 的 文件 或 目录 操 
作 ， 如 : 打开 、 关 闭 、 重 命名 等 等 ， 它 同时 确定 块 与 数据 节点 的 映射 。 数 据 节点 负责 来 自 文件 系 
统 客户 的 读 写 请 求 。 数 据 节点 同时 还 要 执行 块 的 创建 、 删 除 ， 以 及 来 自 名字 节 点 的 块 复制 指令 。 


客户 端 应 用 
图 2-1 HDFS 架构 


21 


大 数据 技术 入 门 


一 个 名 字 节 点 保存 着 集群 上 所 有 文件 的 目录 树 ， 以 及 每 个 文件 数据 块 的 位 置信 息 。 它 是 一 个 
管理 文件 命名 空间 和 客户 端 访问 文件 的 主 服务 器 ， 但 是 它 不 真正 存储 文件 数据 本 身 。 数 据 节 点 通 
常 是 一 个 节点 或 一 个 机 器 ， 它 用 来 真正 地 存放 文件 数据 (和 复制 数据 )， 管 理 着 从 NameNode 分 
配 过 来 的 数据 块 ， 并 管理 对 应 节点 的 数据 存储 。HDFS 对 外 开放 文件 命名 空间 并 允许 用 户 数 据 以 
文件 形式 存储 。 图 2-1 所 示 显 示 了 一 个 HDFS 的 架构 。 


@ 客户 端 应 用 : 每 当 需 要 定位 一 个 文件 或 添加 /复制 /移动 /删除 一 个 文件 时 ， 与 名 字 节 点 交 
互 ， 获 取 文 件 位 置信 息 (返回 相关 的 数据 节点 信息 ) ; 与 数据 节点 交互 ， 读 取 和 写 入 
数据 。 

@ 名字 节 点 (NameNode ) : HDFS 文件 系统 的 核心 节点 ， 保 存 着 集群 中 所 有 数据 块 位 置 
的 一 个 目录 。 它 管理 HDFS 的 名 称 空间 和 数据 块 映射 信息 ， 配 置 副 本 策略 ， 处 理 客户 
端 请 求 。 

@ ”数据 节点 ( DataNode ) : 存储 实际 的 数据 ， 汇 报 存储 信息 给 NameNode。 启 动 后 ， 
DataNode 连接 到 NameNode， 响 应 NameNode 的 文件 操作 请 求 。 一 旦 NameNode 提供 
了 文件 数据 的 位 置信 息 ， 客 户 端 应 用 可 以 直接 与 DataNode 联系 。DataNode 并 不 能 感 
知 集 群 中 其 他 DataNode 的 存在 。 对 于 MapReduce 而 言 ， 我 们 建议 把 TaskTracker 实例 
与 DataNode 部 署 在 同一 个 服务 器 上 ， 从 而 保证 TaskTracker 能 够 就 近 访问 数据 。 
DataNode 之 间 可 以 直接 通信 ， 数 据 复制 就 是 在 DataNode 之 间 完 成 的 。 


名 字 节 点 和 数据 节点 都 是 运行 在 普通 的 机 器 之 上 的 软件 ， 一 般 都 用 Linux 操作 系统 。 因 为 
HDFS 是 用 Java 编写 的 ， 任 何 支持 Java 的 机 器 都 可 以 运行 名 字 节 点 或 数据 节点 。 我 们 很 容易 将 
HDFS 部 署 到 大 范围 的 机 器 上 。 典 型 的 部 署 是 由 一 个 专门 的 机 器 来 运行 名 字 节 点 软件 ， 集 群 中 的 
其 他 机 器 每 台 运 行 一 个 数据 节点 实例 。 体 系 结构 不 排斥 在 一 个 机 器 上 运行 多 个 数据 节点 的 实例 ， 
但 是 实际 的 部 署 中 不 会 有 这 种 情况 。 

集群 中 只 有 一 个 名 字 节 点 极 大 地 简单 化 了 系统 的 体系 结构 。 名 字 节点 是 仲裁 者 和 所 有 HDFS 
元 数据 的 仓库 ， 用 户 的 实际 数据 不 经 过 名 字 节 点 。 在 集群 中 ， 我 们 一 般 还 会 配置 Secondary 
NameNode。 这 个 Secondary NameNode 下 载 NameNode 的 image 文件 和 editlogs， 并 对 他 们 做 本 
地 归并 ， 最 后 再 将 归并 完 的 image 文件 发 回 给 NameNode 。Secondary NameNode 并 不 是 
NameNode 的 热 备 份 ， 在 NameNode 出 故障 时 并 不 能 工作 。 


2.1.2 ”MapReduce (分 布 式 计算 框架 ) 


MapReduce 是 一 种 编程 模型 〈 也 称 为 计算 模型 )， 用 以 大 数据 量 地 批 处 理 计算 。 如 图 2-2 所 
示 ，MapReduce 的 思想 是 将 批量 处 理 的 任务 主要 分 成 两 个 阶段 (Map 和 Reduce 阶段 ?， 所 谓 的 
Map 阶段 就 是 把 数据 生成 “ 键 - 值 ”对 ， 按 键 排序 。 中 间 有 一 步 叫 shuffle， 把 同样 的 key 运输 到 
同一 个 reducer 上 面 去 。 在 reducer 上 ， 因 为 都 是 同一 个 key， 就 直接 可 以 做 聚合 (算出 总 和 )， 
最 后 把 结果 输出 到 HDFS 上 。 对 于 应 用 开发 者 来 说 ， 你 需要 做 的 就 是 编写 Map 和 Reduce 函 
数 ， 像 中 间 的 排序 、shufhe 网 络 传输 、 容 错 处 理 等， 框架 已 经 帮 你 做 好 了 。 
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Input Splitting Mapping Shuffling Reducing Final result 


2-2 ”MapReduce 处 理 示例 


MapReduce 的 思想 和 人 口 普查 的 做 法 类 似 。 人 口 普查 委员 会 给 每 个 城市 分 配 人 口 普 查 工作 
人 员 (Map 任务 )， 所 有 人 员 并 行 地 统计 当地 的 人 口 数 据 ， 最 后 各 个 人 员 的 统计 数据 归 约 
(reduce 任务 ) 到 总 的 人 口 普查 数字 。 图 2-2 的 例子 是 计算 各 个 单词 出 现 的 次 数 。MapReduce 通 
常 将 输入 的 数据 集 分 割 为 一 些 独 立 的 数据 块 〈splitting 步骤 )， 然 后 由 一 些 Map 任务 〈task) 在 服 
务 器 集群 上 以 完全 并 行 的 方式 进行 处 理 ， 这 些 Map 任务 的 计算 结果 最 后 通过 Reduce 任务 合并 在 
一 起 来 计算 最 终 的 结果 。 具 体 来 说 ，Map 对 数据 进行 指定 的 操作 ， 生 成 “ 键 - 值 ”对 形式 的 中 间 
结果 (Mapping 步骤 ,“Deer，1” 就 是 一 个 键 值 对 ， 这 个 中 间 结 果 一 般 存 放 在 文件 系统 上 )。 
MapReduce 框架 对 中 间 结 果 按 照 键 值 排 序 (Shufling 步骤 )，Reduce 则 对 中 间 结 果 中 相同 “ 键 ” 
的 所 有 “ 值 ”进行 规约 (Reducing 步骤 )， 以 得 到 最 终结 果 。 最 终结 果 一 般 也 存放 在 文件 系统 上 
(如 Final result 步骤 )。MapReduce 框架 负责 任务 的 调度 和 监控 ， 并 重新 执行 这 些 失 败 的 任务 。 
MapReduce 非常 适合 在 大 量 计算 机 组 成 的 分 布 式 并 行 环境 里 进行 数据 处 理 。 
2-3 显示 了 一 个 MapReduce 的 使 用 场景 ， 图 中 各 主要 要 素 说 明 如 下 。 


JobTracker 


TaskTracker 


2.3 ”MapReduce 进程 示例 
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@ JobTracker: 这 是 主 节 点 ， 只 有 一 个 ， 它 管理 所 有 作业 ， 人 作业/ 任务 的 监控 、 错 误 处 理 
等 。 它 将 任务 分 解 成 一 系列 的 子 任务 (Map 任务 、Reduce 任务 、Shuffle 操作 ) ， 并 分 
派 给 TaskTracker。 

@ TaskTracker: 这 是 从 节点 ， 可 以 有 多 个 ， 它 们 接收 来 自 JobTracker 的 Map Task、 
Reduce Task 和 Shuffle operations， 并 执行 之 。 它 们 与 JobTracker 交互 ， 汇 报 任务 状 

@ ”Map Task: 解析 每 条 数据 记录 ， 传 递 给 用 户 编写 的 map()， 并 执行 ， 最 后 将 输出 结果 写 
入 本 地 磁盘 (如 果 为 map-only 作业 ， 直 接 写 入 HDFS ) 。 

@ Reduce Task: 从 Map Task 的 执行 结果 中 ， 对 数据 进行 排序 ， 将 数据 按照 分 组 传递 给 用 
户 编写 的 Reduce 函数 执行 。 


我 们 以 一 个 实际 的 案例 来 说 明 MapReduce 处 理 流程 。 如 果 我 们 要 统计 一 下 过 去 60 年 人 民 日 
报 出 现 最 多 的 几 个 词 (未必 是 一 个 ， 可 能 有 好 几 个 词 出 现 的 次 数 一 样 多 )， 那 怎么 使 用 
MapReduce 来 处 理 呢 ?我 们 首先 想到 的 是 ， 可 以 写 一 个 程序 ， 把 所 有 人 民 日 报 按 顺 序 遍 历 一 
遍 ， 统 计 每 一 个 遇 到 的 词 的 出 现 次 数 ， 最 后 就 可 以 知道 哪 几 个 词 最 热门 了 。 但 是 因为 人 民 日 报 的 
文章 数量 很 大 ， 这 个 方法 肯定 耗 时 不 少 。 既 然 MapReduce 的 本 质 就 是 把 作业 交 给 多 个 计算 机 去 
完成 。 那 么 ， 我 们 可 以 使 用 上 述 的 程序 ， 部 署 到 N 台 机 器 上 去 ， 然 后 把 60 年 的 报纸 分 成 N 份 ， 

台 机 器 跑 一 个 作业 ， 然 后 把 N 个 运行 结果 进行 整合 。MapReduce 本 质 上 就 是 如 此 ， 但 是 如 何 
拆 分 60 年 的 报纸 文件 ， 如 何 部 署 程序 到 N 个 机 器 上 ， 如 何 整合 结果 ， 这 都 是 MapReduce 框架 
定义 好 的 。 我 们 只 要 定义 好 这 个 map 和 reduce 任务 ， 其 他 都 交 给 MapReduce。 

下 面 我 们 使 用 MapReduce 伪 代 码 来 说 明 如 何 实现 Map 和 Reduce 两 个 函数 。Map 函数 和 
Reduce 函数 是 需要 我 们 自己 实现 的 ， 这 两 个 函数 定义 了 任务 本 身 。MapReduce 计算 框架 中 的 输 
入 和 输出 的 基本 数据 结构 是 “ 键 - 值 ”对 。 需 要 提醒 读者 的 是 ， 我 们 现在 很 少 直接 使 用 
MapReduce 框架 来 编写 程序 了 ， 而 是 使 用 基于 MapReduce 框架 的 工具 来 编写 ， 或 者 直接 用 
Spark 等 工具 来 编号。 下面 的 Map 函数 和 Reduce 函数 的 伪 代 码 用 来 帮助 读者 理解 整个 
MapReduce 框架 的 思想 。 


1. Map 函数 


接受 一 个 “ 键 - 值 ”对 ， 产 生 一 组 中 间 “ 键 - 值 ” 对 。MapReduce 框架 有 sort《〈 排 序 ) 和 
shuffle (发送) 操作 ，sort 会 按照 键 来 对 map 函数 所 产生 的 键 - 值 对 进行 排序 (如 图 2-2 所 示 的 排 
序 结 果 )， 然 后 shuffle 将 所 有 具有 相同 键 的 “ 键 - 值 ”对 发 送 给 同一 个 reduce 函数 。 


在 上 面 的 代码 中 ，map 函数 接受 的 键 是 文件 名 假定 文件 名 是 日 期 ， 如 : 20160601 则 表明 
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是 2016 年 6 月 1 日 的 人 民 日 报 电 子 版 文件 )， 值 是 文件 的 内 容 ，map 函数 逐个 遍历 词语 ， 每 遇 到 
一 个 词 w， 就 产生 一 个 中 间 “ 键 - 值 ”对 <w, "1">， 这 表示 这 个 w 词 出 现 了 一 次 。 


2. Reduce 函数 


接受 一 个 键 〈 一 个 词 )， 以 及 相关 的 一 组 值 (这 一 组 值 是 所 有 Map 对 于 这 个 词 计算 出 来 的 频 
数 的 一 个 集合 )， 整 个 输入 数据 也 是 一 个 “ 键 - 值 ”对 。 将 这 组 值 进行 合并 产生 一 组 规模 更 小 的 值 
(通常 只 有 一 个 或 零 个 值 )。 在 我 们 这 个 例子 中 ， 是 将 值 集合 中 的 频数 进行 求 和 ， 然 后 记录 每 个 词 
和 这 个 词 出 现 的 总 频数 。 


MapReduce 将 键 相同 都 是 词 w) 的 “ 键 - 值 ”对 传 给 reduce 函数 ， 这 样 reduce 函数 接受 的 
键 就 是 单词 w， 值 是 字符 串 “1” 的 列表 〈 键 为 w 的 键 - 值 对 的 个 数 )， 然 后 将 这 些 “1” 累 加 就 
得 到 单词 w 的 出 现 次 数 。 最 后 存储 在 HDFS 上 。 

MapReduce 支持 C/C++、Java、Ruby、Perl 和 Python 编程 语言 。 开 发 人 员 可 以 使 用 
MapReduce 库 来 创建 任务 。 至 于 节点 之 间 的 通信 和 协调 ， 输 入 数据 集 的 切割 ， 在 不 同 机 器 之 间 
的 程序 执行 调度 ， 处 理 错误 等 ， 这 些 都 由 框架 完成 ， 开 发 人 员 无 须 处 理 。Map 和 Reduce 函数 会 
自动 在 多 个 服务 器 节点 上 自动 并 行 执行 。 即 使 开发 人 员 完全 没有 并 行 和 分 布 式 系统 的 经 验 和 知 
识 ， 也 能 轻松 地 利用 好 大 型 分 布 式 系统 的 资源 。MapReduce 革新 了 海量 数据 计算 的 方式 ， 为 运 
行 在 成 百 上 千 台 机 器 上 的 并 行程 序 提供 了 简单 的 编程 模型 。MapReduce 几乎 可 以 做 到 线性 扩 
展 : 随 着 数据 量 的 增加 ， 可 以 通过 增加 更 多 的 计算 机 来 保持 作业 时 间 不 变 。MapReduce 容错 性 
强 ， 它 将 工作 拆 分 成 多 个 小 任务 后 ， 能 很 好 地 处 理 任务 失败 。 


2.1.3 YARN (集群 资源 管理 器 ) 


从 Hadoop 2 开始 ，MapReduce 被 一 个 改进 的 版 本 所 替代 ， 这 个 新 版 本 叫做 MapReduce 2.0 
(MRv2) 或 YARN (Yet Another Resouce Negotiator， 另 一 种 资源 协调 者 ) 。YARN 是 一 种 新 的 
Hadoop 资源 管理 器 ， 也 是 一 个 通用 资源 管理 系统 ， 可 为 上 层 应 用 提供 统一 的 资源 管理 和 调度 ， 
它 的 引入 为 集群 在 利用 率 、 资 源 统一 管理 和 数据 共享 等 方面 带 来 了 巨大 好 处 。 我 们 先 来 回顾 一 下 
老 版 本 的 MapReduce 的 流程 和 设计 思路 。 从 图 2-3 可 以 看 出 : 


@ 首先 客户 端 应 用 提交 了 一 个 job，job 的 信息 会 发 送 到 Job Tracker 中 ，Job Tracker 是 
MapReduce 框架 的 中 心 ， 它 与 集群 中 的 机 器 定时 通信 (心跳 )， 确 定 哪些 程序 在 哪些 机 
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器 上 执行 ， 管 理 所 有 job 失败 、 重 启 等 操作 。 

TaskTracker 在 MapReduce 集群 中 每 台 机 器 都 有 ， 主 要 是 监视 所 在 机 器 的 资源 情况 。 
TaskTracker 同时 监视 当前 机 器 上 的 tasks 运行 状况 。TaskTracker 把 这 些 信息 通过 心跳 发 
送 给 JobTracker，JobTracker 会 搜集 这 些 信息 ， 为 新 提交 的 job 确定 运行 在 哪些 机 器 上 。 


MapReduce 架构 简单 明了 ， 在 最 初 推出 的 几 年 ， 得 到 了 众多 的 成 功 案例 ， 获 得 业界 广泛 的 
支持 和 肯定 。 但 随 着 分 布 式 系统 集群 的 规模 及 其 工作 负荷 的 增长 ， 原 框架 固有 的 问题 逐渐 浮 出 水 
面 ， 主 要 的 问题 集中 如 下 : 


JobTracker 是 MapReduce 的 集中 处 理 点 ， 存 在 单 点 故障 。 

JobTracker 承担 了 太 多 的 任务 ， 造 成 了 过 多 的 资源 消耗 ， 当 job 非常 多 的 时 候 ， 会 造成 
很 大 的 内 存 开销 ， 也 增加 了 JobTracker 崩 演 的 风险 。 业 界 的 共识 是 老 版 本 的 
MapReduce 的 上 限 只 能 支持 4000 个 节点 主机 。 

在 TaskTracker 端 ， 只 以 map/reduce task 的 数目 作为 资源 的 表示 过 于 简单 ， 没 有 考虑 到 
CPU 和 内 存 的 占用 情况 ， 如 果 两 个 大 内 存 消耗 的 task 被 调度 到 了 一 块 ， 很 容易 出 现 
Java 的 OOM。 

在 TaskTracker 端 ， 把 资源 强制 划分 为 map task slot 和 reduce task slot。 当 系统 中 只 有 
map task 或 者 只 有 reduce task 的 时 候 ， 这 会 造成 资源 的 浪费 ， 也 就 是 前 面 提 到 的 集群 资 
源 利用 的 问题 。 


YARN 最 初 是 为 了 修复 MapReduce 实现 里 的 明显 不 足 ， 并 对 可 伸缩 性 〈 支 持 一 万 个 节点 和 
二 十 万 个 内 核 的 集群 ) 、 可 靠 性 和 集群 利用 率 进 行 了 提升 。YARN 把 Job Tracker 的 两 个 主要 功 
能 (资源 管理 和 作业 调度 /监控 ) 分 成 了 两 个 独立 的 服务 程序 一 一 全 局 的 资源 管理 (Resource 
Manager， 简 称 为 RM) 和 针对 每 个 应 用 的 App Master (AM) ， 这 里 说 的 应 用 要 么 是 传统 意义 
上 的 MapReduce 任务 ， 要 么 是 任务 的 有 向 无 环 图 (DAG) 。Resource Manager 和 每 一 台 机 器 的 
节点 管理 服务 器 (Node Manager) 能 够 管理 用 户 在 哪 台 机 器 上 的 进程 ， 并 能 对 计算 进行 组 织 。 其 


架构 图 如 图 2-4 所 示 。 
节点 管理 器 
Node Manager 
- 应 用 服务 器 容器 
[客户 由 应用、 App Master | | Container 
一 一 
节点 管理 器 
Node Manager | 
“二 应 用 服务 器 容器 
App Master Container 
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Resource Manager 


度 器 ， 可 以 基于 应 用 程 
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支持 分 层级 的 应 用 队列 ， 这 些 队 列 享有 集群 一 定 比例 的 资源 。 它 是 一 个 调 
序 对 资源 的 需求 进行 调度 。 每 一 个 应 用 程序 需要 不 同类 型 的 资源 ， 因 此 就 


需要 不 同 的 容器 (container) 。 资 源 包括 : 内 存 、CPU、 磁 盘 、 网 络 等 等 。 可 以 看 出 ， 这 同 老 版 
本 MapReduce 的 固定 类 型 的 资源 使 用 模型 有 显著 区 别 。 资 源 管理 器 提供 一 个 调度 策略 的 插件 ， 


它 负 责 将 集群 资源 分 配 


给 多 个 队列 和 应 用 程序 。 


图 中 Node Manager 是 每 一 台 机 器 的 代理 ， 是 执行 应 用 程序 的 容器 ， 它 监控 应 用 程序 的 资源 
使 用 情况 (CPU、 内 存 、 硬 盘 、 网 络 ) 并 且 向 资源 管理 器 汇报 。 每 一 个 应 用 的 Application 


Master 是 一 个 框架 库 ， 


它 结合 从 Resource Manager 获得 的 资源 和 Node Manager 协同 工作 来 运 


行 和 监控 任务 。 每 一 个 应 用 的 Application Master 向 资源 管理 器 索要 适当 的 资源 容器 ， 运 行 任 


务 ， 跟 踪 应 用 程序 的 状 


态 和 监控 它们 的 进程 ， 处 理 任务 的 失败 。 


让 我 们 对 新 旧 MapReduce 框架 做 一 下 比较 。 首 先 客户 端 应 用 不 变 ， 其 API 大 部 分 保持 兼 
容 ， 这 也 是 为 了 对 开发 者 透明 化 ， 使 其 不 必 对 原 有 应 用 代码 做 大 的 修改 ， 但 是 原 框架 中 核心 的 
JobTracker 和 TaskTracker 不 见 了 ， 取 而 代 之 的 是 Resource Manager、Application Master 与 
NodeManager 三 个 部 分 。Resource Manager 是 一 个 中 心 的 服务 ， 它 是 调度 和 启动 每 一 个 Job 所 
属 的 Application Master， 另 外 监控 Application Master 的 存在 情况 。 在 老 版 本 的 Job 里 面 所 在 的 
task 监控 和 重启 在 YARN 中 都 不 见 了 ， 这 就 是 在 YARN 中 出 现 Application Master 的 原因 。 
Resource Manager 负责 作业 与 资源 的 调度 ， 接 收 Job Submitter 提交 的 作业 ， 按 照 作 业 的 上 下 文 


(Context) 信息 ， 以 


及 从 Node Manager 收集 来 的 状态 信息 ， 启 动 调度 过 程 ， 分 配 一 个 


Container。Node Manager 功能 比较 专 一 ， 就 是 负责 Container 状态 的 维护 ， 并 向 Resource 
Manager 保持 心跳 。Application Master 负责 一 个 Job 生命 周期 内 的 所 有 工作 ， 类 似 老 框架 中 的 
JobTracker。 但 需要 注意 每 一 个 Job 不 是 每 一 种 ) 都 有 一 个 Application Master， 它 可 以 运行 在 


Resource Manager 以 外 


的 机 器 上 。 


Yam 框架 相对 于 老 的 MapReduce 框架 有 什么 优势 呢 ? 首先 ， 这 个 设计 大 大 减 小 了 
JobTracker (也 就 是 YARN 的 Resource Manager) 的 资源 消耗 ， 并 且 让 监测 每 一 个 Job 子 任务 
(tasks) 状态 的 程序 分 布 式 了 。 对 于 资源 的 表示 以 内 存 为 单位 ， 比 之 前 以 剩余 slot 数目 为 单位 


更 合理 。 老 的 框架 中 ， 


JobTracker 一 个 很 大 的 负担 就 是 监控 job 下 tasks 的 运行 状况 ， 现 在 ， 这 个 


部 分 由 Application Master 完成 ， 而 Resource Manager 中 有 一 个 模块 叫做 ApplicationsMasters 〈 注 


意 不 是 ApplicationMaster) ， 它 用 来 监测 ApplicationMaster 的 运行 状况 ， 如 果 出 问题 ， 会 将 其 


在 其 他 机 器 上 重启 。Container 是 Yam 为 了 将 来 作 资 源 隔离 而 提出 的 一 个 框架 。 这 一 点 应 该 是 
借鉴 了 Mesos 的 工作 机 制 ， 虽 然 Container 目前 是 一 个 框架 ， 仅 仅 提供 Java 虚拟 机 内 存 的 隔 
离 ， 但 是 未 来 可 能 会 支持 更 多 的 资源 调度 和 控制 。 既 然 资 源 表 示 成 内 存量 ， 那 就 没有 了 之 前 的 
map slot/reduce slot 分 开 所 造成 集群 资源 闲置 的 问题 。 

总 之 ，YARN 从 某 种 意义 上 来 说 应 该 算是 一 个 云 操作 系统 ， 它 负责 集群 的 资源 管理 。 在 操 


作 系 统 之 上 可 以 开发 各 
数据 存储 模型 ， 共 享 同 
用 YARN 的 资源 管理 


类 的 应 用 程序 。 这 些 应 用 可 以 同时 利用 Hadoop 集群 的 计算 能 力 和 丰富 的 
一 个 Hadoop 集群 和 驻 留 在 集群 上 的 数据 。 此 外 ， 这 些 新 的 框架 还 可 以 利 


YARN。 


器 ， 提 供 新 的 应 用 管理 器 实现 。 本 书后 面 介 绍 的 Spark 框架 就 支持 
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2.1.4 Zookeeper (分 布 式 协作 服务 ) 


Zookeeper 是 一 个 集中 式 服务 ， 主 要 负责 分 布 式 任务 调度 ， 它 用 来 完成 配置 管理 、 名 字 服 
务 、 提 供 分 布 式 锁 以 及 集群 管理 等 工作 。 具 体 说 明 如 下 。 


1. 配置 管理 


应 用 程序 中 经 常 有 一 些 配置 ， 比 如 数据 库 连接 等 。 一 般 我 们 都 是 使 用 配置 文件 的 方式 ， 在 代 
码 中 引入 这 些 配置 文件 。 这 种 方式 适合 只 有 一 台 服 务 器 的 时 候 。 当 我 们 有 很 多 服务 器 时 ， 就 需要 
寻找 一 种 集中 管理 配置 的 方法 ， 而 不 是 在 各 个 服务 器 上 存放 配置 文件 。 我 们 在 这 个 集中 的 地 方 修 
改 了 配置 ， 所 有 需要 配置 的 服务 都 能 读 取 配 置 。 一 般 我 们 用 一 个 集群 来 提供 这 个 配置 服务 以 提升 
可 靠 性 。 

Zookeeper 保证 了 配置 在 集群 中 的 一 致 性 ， 它 使 用 Zab 这 种 一 致 性 协议 来 提供 一 致 性 。 现 在 
有 很 多 开源 项 目 使 用 Zookeeper 来 维护 配置 ， 比 如 在 HBase 中 ， 客 户 端 就 是 连接 一 个 
Zookeeper， 获 得 必要 的 HBase 集群 的 配置 信息 ， 然 后 才 可 以 进一步 操作 。 在 开源 的 消息 队列 
Kafka 中 ， 也 使 用 Zookeeper 来 维护 broker 的 信息 。 


2. 名 字 服务 


DNS 把 域名 (如 :; www.da-shujucom) 对 应 到 IP 地 址 (59.175.137.94)， 从 而 为 我 们 提供 了 
名 字 服 务 。 在 应 用 系统 中 我 们 有 时 也 会 需要 这 类 名 字 服 务 ， 特 别 是 在 服务 特别 多 的 时 候 。 我 们 只 
需要 访问 一 个 共同 的 地 方 ， 它 提供 统一 的 入 口 。 

3. 分 布 式 锁 

Zookeeper 是 一 个 分 布 式 协调 服务 。 我 们 利用 Zookeeper 来 协调 多 个 分 布 式 进程 之 间 的 活 
动 。 在 一 个 分 布 式 环境 中 ， 为 了 提高 可 靠 性 ， 集 群 中 的 每 台 服 务 器 上 都 部 署 着 同样 的 服务 。 我 们 
使 用 分 布 式 锁 ， 在 某 个 时 刻 只 让 一 个 服务 去 干 活 ， 当 这 个 服务 出 问题 时 就 将 锁 释 放 ， 并 立即 切换 
到 另外 的 服务 上 。 比 如 HBase 的 Master 就 是 采用 这 种 机 制 。 在 Zookeeper 中 是 通过 选举 leader 
完成 的 分 布 式 锁 。 


4. 集群 管理 


在 分 布 式 的 集群 中 ， 经 常会 由 于 各 种 原因 ， 比 如 硬件 故障 、 软 件 故障 、 网 络 问题 ， 有 新 的 节 
点 加 入 进来 ， 也 有 老 的 节点 退出 集群 。 这 个 时 候 ， 集 群 中 其 他 机 器 需要 感知 到 这 种 变化 ， 然 后 根 
据 这 种 变化 做 出 对 应 的 决策 。 比 如 : 一 个 分 布 式 的 SOA 架构 中 ， 服 务 是 一 个 集群 提供 的 ， 当 消 
费 者 访问 某 个 服务 时 ， 就 需要 确定 哪些 节点 可 以 提供 该 服务 。Kafka 的 队列 就 采用 了 Zookeeper 
作为 消费 者 的 上 下 线 管 理 。 

总 之 ，Zookeeper 就 是 一 种 可 靠 的 、 可 扩展 的 、 分 布 式 的、 可 配置 的 协调 机 制 ， 用 来 统一 分 
布 式 系统 的 状态 。 
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2.1.5 Ambari (管理 工具 ) 


Apache Ambari 是 一 种 基于 Web 的 Hadoop 管理 工具 ， 可 以 快捷 地 监控 、 部 署 、 管 理 Hadoop 
集群 。Ambari 目前 已 支持 大 多 数 Hadoop 组 件 ， 包 括 HDFS、MapReduce、Hive、Pig、HBase、 
Zookeper、Sqoop 和 Hcatalog 等 。Ambari 可 以 帮助 Hadoop 系统 管理 员 来 完成 以 下 工作 : 


@ ”通过 一 步 一 步 的 安装 向 导 简 化 了 集群 的 安装 和 配置 。 

@ ”集中 管理 (包括 : 启动 、 停 止 和 重新 配置 ) 集群 上 的 Hadoop 服务 。 

@ ”预先 配置 好 关键 的 运 维 指标 ， 可 以 直接 查看 Hadoop Core (HDFS 和 MapReduce ) 及 相 
关 项 目 (如 HBase、Hive 和 HCatalog ) 是 否 健康 。 

@ 支持 作业 与 任务 执行 的 可 视 化 与 分 析 ， 能 够 更 好 地 查看 依赖 和 性 能 。 

@ ”通过 一 个 完整 的 RESTful API 把 监控 和 管理 功能 谈 入 到 自己 的 应 用 系统 中 。 

@ 用户 界 面 非常 直观 ， 用 户 可 以 轻松 有 效 地 查看 信息 并 控制 集群 。 


Ambari 使 用 Ganglia 收集 度量 指标 ， 用 Nagios 支持 系统 报警 ， 当 需要 引起 管理 员 的 关注 时 
〈 比 如， 节点 停机 或 磁盘 剩余 空间 不 足 等 问题 )， 系 统 将 向 其 发 送 邮件 。 此 外 ，Ambari 能 够 安装 
安全 的 (基于 Kerberos) Hadoop 集群 ， 以 此 实现 了 对 Hadoop 安全 的 支持 ， 提 供 了 基于 角色 的 
用 户 认证 、 授 权 和 审计 功能 ， 并 为 用 户 管理 集成 了 LDAP 和 Active Directory。 


2.2 Spark ( 内 存 计算 框架 ) 


随 着 大 数据 的 发 展 ， 人 们 对 大 数据 的 处 理 要 求 也 越 来 越 高 ， 原 有 的 批 处 理 框架 MapReduce 
适合 离线 计算 ， 却 无 法 满足 实时 性 要 求 较 高 的 业务 ， 如 实时 推荐 、 用 户 行为 分 析 等 。 因 此 ， 
Hadoop 生态 系统 又 发 展 出 以 Spark 为 代表 的 新 计算 框架 。 相 比 MapReduce，Spark 速度 快 ， 开 发 
简单 ， 并 且 能 够 同时 兼顾 批 处 理 和 实时 数据 分 析 。 

Apache Spark 是 加 州 大 学 伯克利 分 校 的 AMPLabs 开发 的 开源 分 布 式 轻 量 级 通用 计算 框 
架 ， 并 于 2014 年 2 月 成 为 Apache 的 顶级 项 目 。 由 于 Spark 基于 内 存 设计 ， 使 得 它 拥有 比 
Hadoop 更 高 的 性 能 ， 并 且 对 多 语言 (Scala、Java、Python) 提供 支持 。Spark 有 点 类 似 Hadoop 
MapReduce 框架 。Spark 拥有 Hadoop MapReduce 所 具有 的 优点 ; 但 不 同 于 MapReduce 的 是 Job 
中 间 输 出 结果 可 以 保存 在 内 存 中 ， 从 而 不 再 需要 读 写 HDFS (MapReduce 的 中 间 结 果 要 放 在 文件 
系统 上 )， 因 此 ， 在 性 能 上 ，Spark 能 比 MapReduce 框架 快 100 倍 左右 〈 如 图 2-5 所 示 )， 排 序 
100TB 的 数据 只 需要 20 分 钟 左右 。 正 是 因为 Spark 主要 是 在 内 存 中 执行 ， 所 以 Spark 对 内 存 的 
要 求 非常 高 ， 一 个 节点 通常 需要 配置 24GB 的 内 存 。 在 业界 ， 我 们 有 时 把 MapReduce 称 为 批 处 
理 计算 框架 ， 把 Spark 称 为 实时 计算 框架 、 内 存 计算 框架 或 流 式 计算 框架 。 
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图 2-5 性 能 比较 (数据 来 源 : http://spark.apache.org/) 


Hadoop 使 用 数据 复制 来 实现 容错 性 (IO 高 ) ， 而 Spark 使 用 RDD (Resilient Distributed 
Datasets， 弹 性 分 布 式 数据 集 ) 数据 存储 模型 来 实现 数据 的 容错 性 。RDD 是 只 读 的 、 分 区 记录 的 
集合 。 如 果 一 个 RDD 的 一 个 分 区 丢失 ，RDD 含有 如 何 重建 这 个 分 区 的 相关 信息 。 这 就 避免 了 
使 用 数据 复制 来 保证 容错 性 的 要 求 ， 从 而 减少 了 对 磁盘 的 访问 。 通 过 RDD， 后 续 步 又 如 果 需 要 
相同 数据 集 时 就 不 必 重 新 计算 或 从 磁盘 加 载 ， 这 个 特性 使 得 Spark 非常 适合 流水 线 式 的 处 理 。 

虽然 Spark 可 以 独立 于 Hadoop 来 运行 ， 但 是 Spark 还 是 需要 一 个 集群 管理 器 和 一 个 分 布 式 
存储 系统 。 对 于 集群 管理 ，Spark 支持 Hadoop YARN、Apache Mesos 和 Spark 原生 集群 。 对 于 分 
布 式 存储 ，Spark 可 以 使 用 HDFS、Casandra、OpenStack Swift 和 Amazon S3。Spark 支持 Java、 
Python 和 Scala (Scala 是 Spark 最 推荐 的 编程 语言 ，Spark 和 Scala 能 够 紧密 集成 ，Scala 程序 可 
以 在 Spark 控制 台 上 执行 )。 应 该 说 ，Spark 紧密 集成 Hadoop 生态 系统 中 的 上 述 工具 。Spark 可 
以 与 Hadoop 上 的 常用 数据 格式 (如 : Avro 和 Parquet) 进行 交互 ， 能 读 写 HBase 等 NoSQL 数据 
库 ， 它 的 流 处 理 组 件 Spark Streaming 能 连续 从 Flume 和 Kafka 之 类 的 系统 上 读 取 数据 ， 它 的 
SQL 库 Spark SQL 能 和 Hive Metastore 交互 。 

Spark 可 用 来 构建 大 型 的 、 低 延迟 的 数据 分 析 应 用 程序 。 如 图 2-6 所 示 ，Spark 包含 了 如 下 的 
库 : Spark SQL，Spark Streaming，MLlib( 用 于 机 器 学 习 ) 和 GraphX。 其 中 Spark SQL 和 Spark 
Streaming 最 受 欢迎 ， 大 概 60% 左 右 的 用 户 在 使 用 这 两 个 中 的 一 个 。 而 且 Spark 还 能 替代 
MapReduce 成 为 Hive 的 底层 执行 引擎 。 


MLIib 县 GraphX 
(graph) 


learning) 


Apache Spark 


图 2-6 Spark 组 件 


Spark 的 内 存 缓存 使 它 适 合 于 迭代 计算 。 机 器 学 习 算 法 需要 多 次 遍历 训练 集 ， 可 以 将 训练 集 
缓存 在 内 存 里 。 在 对 数据 集 进行 探索 时 ， 数 据 科学 家 可 以 在 运行 查询 的 时 候 将 数据 集 放 在 内 存 ， 
这 样 就 节省 了 访问 磁盘 的 开销 。 
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虽然 Spark 目前 被 广泛 认为 是 下 一 代 Hadoop， 但 是 Spark 本 身 的 复杂 性 也 困扰 着 开发 人 
员 。Spark 的 批 处 理 能 力 仍然 比 不 过 MapReduce，Spark SQL 和 Hive 的 SQL 功能 相 比 还 有 一 定 
的 差距 ，Spark 的 统计 功能 与 R 语言 还 没有 可 比 性 。 


2.2.1 Scala 

Spark 框架 是 用 Scala 开发 的 ， 并 提供 了 Scala 语言 的 一 个 子 集 。 那 么 ， 什 么 是 Scala 呢 ? 
Scala 是 一 种 类 似 Java 的 编程 语言 ， 它 的 设计 初衷 是 创造 一 种 更 好 地 支持 组 件 的 语言 。Scala 的 
编译 器 把 源 文件 编译 成 Java 的 class 文件 ， 从 而 让 Scala 程序 运行 在 JVM 上 。Scala 兼容 现 有 的 
Java 程序 ， 从 Scala 中 可 调用 所 有 的 Java 类 库 。Scala 能 够 让 我 们 花 更 少 的 时 间 和 更 少 的 代码 编 
写 一 样 功 能 的 Java 程序 。 在 JVM 上 ，Scala 代码 多 了 一 个 运行 库 scala-libraryjar。 

Scala 支持 交互 式 运行 ， 开 发 人 员 无 须 编译 就 能 运行 这 个 代码 。 比 如 : 键入 下 列 Scala 代 
码 ， 然 后 按 Enter 键 : 


这 将 产生 以 下 结果 : 


Scala 和 Java 间 的 最 大 语法 的 区 别 在 于 “;”〔 行 结束 符 》 是 可 选 的 。 其 他 都 非常 类 似 。 下 面 
我 们 来 编写 一 个 简单 的 Scala 代码 ， 用 于 打印 简单 的 一 名 话 : “Hello, World!”。 


其 中 的 “def main(args: Array[String])” 是 Scala 程序 的 main()， 这 是 每 一 个 Scala 程序 的 入 口 
部 分 。 我 们 将 上 述 代 码 保存 为 HelloWorld.scala 文件 ， 然 后 输入 “scalac HelloWorld.scala” 编 译 该 
代码 。 这 将 在 当前 目录 中 生成 几 个 类 文件 。 其 中 一 个 名 称 为 HelloWorld.class。 这 是 一 个 可 以 运 
行 在 Java 虚拟 机 〈(JVM) 上 的 字 节 码 。 键 入 “scala HelloWorld” 来 运行 程序 ， 就 可 以 在 窗口 上 
看 到 “Hello, World!”。 

Spark 框架 是 用 Scala 语言 编写 的 ， 在 使 用 Sap 水 时 ， 采 用 与 底层 框架 相同 的 编程 语言 有 很 
多 好 处 : 


@ ”性 能 开销 小 ; 
@ 能 用 上 Spark 最 新 的 版 本 ; 
@ 有 助 于 你 更 理解 Spark 的 原理 。 


感 兴趣 的 读者 可 以 参考 《Scala 编程 思想 》 一 书 深入 学 习 Scala 编程 。 
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2.2.2 Spark SQL 

Spark 的 存在 是 为 了 以 快 于 MapReduce 的 速度 进行 分 布 式 计算 。Spark 的 设计 者 很 快 就 了 解 
到 ， 大 家 还 是 想 要 用 SQL 来 访问 数据 ， 于 是 Spark SQL 就 出 现 了 。Spark SQL 是 基于 Spark 引擎 
对 HDFS 上 的 数据 集 或 已 有 的 RDD 执行 SQL 查询 。 有 了 Spark SQL 就 能 在 Spark 程序 里 用 
SQL 语句 操作 数据 了 。 比 如 : 


val sqlContext = new org.apache.spark.sql.SQLContext (sc) 
val persons = sqlContext.sql ("SELECT name FROM People WHERE age >= 18 
AND age <= 29") 


上 述 两 行 代码 是 Scala 的 语法 。 这 两 行 都 声明 了 两 个 新 变量 。 与 Java 不 同 的 是 ，Scala 在 变 
量 声明 时 不 给 定 变 量 类 型 。 这 个 功能 在 Scala 编程 语言 中 称 为 类 型 推断 。Scala 会 从 上 下 文中 分 
析出 变量 类 型 。 只 要 在 Scala 中 定义 新 变量 ， 必 须 在 变量 名 称 之 前 加 上 val 或 var。 带 有 val 的 变 
量 是 不 可 变 变量 ， 一 旦 给 不 可 变 变量 赋值 ， 就 不 能 改变 。 而 以 var 开头 的 变量 则 可 以 改变 值 。 

Spark SQL 在 Spark 圈 中 非常 流行 。Spark SQL 的 前 身 是 Shark。 我 们 简短 回顾 一 下 Shark 的 
整个 发 展 历史 。 对 于 熟悉 RDBMS 但 又 不 理解 MapReduce 的 技术 人 员 来 说 ，Hive 提供 快速 上 手 
的 工具 ， 它 是 第 一 个 运行 在 Hadoop 上 的 SQL 工具 。Hive 基于 MapReduce， 但 是 MapReduce 的 
中 间 过 程 消耗 了 大 量 的 JO， 影响 了 运行 效率 。 为 了 提高 在 Hadoop 上 的 SQL 的 效率 ， 一 些 工具 
开始 产生 ， 其 中 表现 较为 突出 的 是 ，MapR 的 Drill、Cloudera 的 Impala、Shark。 其 中 Shark 是 伯 
克利 实验 室 Spark 生态 环境 的 组 件 之 一 ， 它 修改 了 内 存 管理 、 物 理 计 划 、 执 行 三 个 模块 ， 并 使 之 
能 运行 在 Spark 引擎 上 ， 从 而 使 得 SQL 查询 的 速度 得 到 10~100 倍 的 提升 。Shark 依赖 于 Hive， 
比如 : Shark 采用 Hive 的 语法 解析 器 和 查询 优化 器 ， 这 制约 了 Spark 各 个 组 件 的 相互 集成 ， 所 以 
提出 了 Spark SQL 项 目 。2014 年 6 月 1 日 ，Shark 项 目 组 宣布 停止 对 Shark 的 开发 ， 将 所 有 资源 
放 在 Spark SQL 项 目 上 。Spark SQL 作为 Spark 生态 的 一 员 继 续 发 展 ， 而 不 再 受 限 于 Hive， 只 是 
兼容 Hive。Spark SQL 体系 架构 如 图 2-7 所 示 。 


Client 


cu | 5pec 
驱动 程序 “| 缓冲 管理 器 


SQL 查询 ”| 物理 计划 
解析 器 | 优化 器 ”执行 


图 2-7 Spark SQL 体系 架构 


Spark SQL 抛弃 原 有 Shark 的 代码 ， 汲 取 了 Shark 的 一 些 优点 ， 如 内 存 列 存储 〈In-Memory 
Columnar Storage )、Hive 兼容 性 等 ， 重 新 开发 了 Spark SQL 代码 。 由 于 摆脱 了 对 Hive 的 依赖 
性 ，Spark SQL 无 论 在 数据 兼容 、 性 能 优化 、 组 件 扩展 方面 都 得 到 了 极 大 的 方便 。 在 数据 兼容 方 
面 ，Spark 不 但 兼容 Hive， 还 可 以 从 RDD、parquet 文件 、JSON 文件 中 获取 数据 ， 未 来 版 本 其 
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至 支持 获取 RDBMS 数据 以 及 cassandra 等 NOSQL 数据 。 在 性 能 优化 方面 ， 除 了 采取 内 存 列 存 
储 、 字 节 码 生成 技术 (bytecode generation) 等 优化 技术 外 ， 将 会 引进 Cost Model 对 查询 进行 动 
态 评估 、 获 取 最 佳 物理 计划 等 等 。 在 组 件 扩展 方面 ， 无 论 是 SQL 的 语法 解析 器 还 是 优化 器 ， 都 
可 以 重新 定义 并 进行 扩展 。 


2.2.3 Spark Streaming 

Spark Streaming 是 基于 Spark 引擎 对 数据 流 进 行 不 间断 处 理 。 只 要 有 新 的 数据 出 现 ，Spark 
Streaming 就 能 对 其 进行 准 实时 《〈 数 百 毫秒 级 别 的 延 时 ) 的 转换 和 处 理 。Spark Streaming 的 工作 
原理 是 在 小 间隔 里 对 数据 进行 汇集 从 而 形成 小 批量 ， 然 后 在 小 批量 数据 上 运行 作业 。 

使 用 Spark Streaming 编写 的 程序 与 编写 Spark 程序 非常 相似 ， 在 Spark 程序 中 ， 主 要 通过 操 
作 RDD 提供 的 接口 ， 如 map、reduce、filter 等 ， 实 现 数据 的 批 处 理 。 而 在 Spark Streaming 中 ， 
则 通过 操作 DStream 〈 表 示 数 据 流 的 RDD 序列 ) 提供 的 接口 ， 这 些 接口 和 RDD 提供 的 接口 类 
似 。 下 面 我 们 来 看 一 个 应 用 案例 。 

假定 有 一 个 电 商 网 站 ， 它 买 了 几 个 搜索 引擎 如: 百度 ) 的 很 多 关键 词 。 当 用 户 在 各 大 搜索 
引擎 上 搜索 数据 时 ， 搜 索引 擎 会 根据 购买 的 关键 字 导 流 到 电 商 网 站 的 相关 产品 页 面 上 ， 用 户 可 能 
会 购买 这 些 产品 。 现 在 需要 分 析 的 是 哪些 搜索 词 带 来 的 订单 比较 多 ， 然 后 根据 分 析 结 果 多 投放 这 
些 转 化 率 比较 高 的 关键 词 ， 从 而 为 电 商 网 站 带 来 更 多 的 收益 。 

原先 的 做 法 是 每 天 凌晨 分 析 前 一 天 的 日 志 数 据 ， 这 种 方式 实时 性 不 高 ， 而 且 由 于 日 志 量 比较 
大 ， 单 台 机 器 处 理 已 经 达到 了 瓶颈 。 现 在 选择 了 使 用 Spark Streaming + Kafka+Flume 来 处 理 这 
些 日 志 ， 并 且 运 行 在 YARN 上 以 应 对 遇 到 的 问题 。 

如 图 2-8 所 示 ， 业 务 日 志 分 布 在 各 台 服 务 器 上 。 由 于 业务 量 比 较 大 ， 所 以 日 志 都 是 按 小 时 切 
分 的 ， 我 们 采用 Flume 实时 收集 这 些 日 志 (图 中 步骤 1)， 然 后 发 送 到 Kafka 集群 〈 图 中 步 又 
2)。 这 里 为 什么 不 直接 将 原始 日 志 直 接 发 送 到 Spark Streaming 呢 ? 这 是 因为 ， 如 果 Spark 
Streaming 挂 掉 了 ， 也 不 会 影响 到 日 志 的 实时 收集 。 


日 志 日 志 日 志 
图 2-8 Spark Streaming 应 用 案例 


志 实 时 到 达 Kafka 集群 后 ， 我 们 再 通过 Spark Streaming 实时 地 从 Kafka 拉 数 据 (图 中 


33 


大 数据 技术 入 门 


步骤 3)， 然 后 解析 日 志 ， 并 根据 一 定 的 逻辑 过 滤 数 据 和 分 析 订 单 和 搜索 词 的 关联 性 。 我 们 使 用 
Spark 的 KafkaUtils.createDirectStream API 从 Kafka 中 拉 数 据 ， 代 码 片段 如 下 : 


在 上 述 代码 中 返回 的 messages 是 一 个 刚刚 创建 DStream， 它 是 对 RDD 的 封装 ， 其 上 的 很 多 
操作 都 类 似 于 RDD 。createDirectStream 函数 是 Spark 1.3.0 开始 引入 的 ， 其 内 部 实现 是 调用 
Kafka 的 低层 次 API，Spark 本 身 维护 Kafka 偏 移 量 等 信息 ， 所 以 可 以 保证 数据 零 丢 失 。 

为 了 能 够 在 Spark Streaming 程序 挂 掉 后 又 能 从 断 点 处 恢复 ， 我 们 每 隔 2 秒 进行 一 次 
Checkpoint， 这 些 Checkpoint 文件 存储 在 HDFS 上 “图 中 步骤 4) 的 Checkpoint 目录 中 。 我 们 
可 以 在 程序 里 面 设置 Checkpoint 目录 : 


如 果 我 们 需要 从 Checkpoint 目录 中 恢复 ， 我 们 可 以 使 用 StreamingContext 中 的 
getOrCreate 函数 。 为 了 让 分 析 结 果 共 享 给 其 他 系统 使 用 ， 我 们 将 分 析 后 的 数据 重新 发 送 到 
Kafka (图 中 步骤 5)。 最 后 ， 我 们 单独 启动 了 一 个 程序 从 Kafka 中 实时 地 将 分 析 好 的 数据 存 到 
MySQL 中 用 于 持久 化 存储 (图 中 步骤 6)。 


2 .了 实时 流 处 理 框架 


在 大 数据 领域 ，Hadoop 无 疑 是 炙手可热 的 技术 。 作 为 分 布 式 系统 架构 ，Hadoop 具有 高 可 靠 
性 、 高 扩展 性 、 高 效 性 、 高 容错 性 和 低 成 本 的 优点 。 然 而 ， 随 着 数据 体 量 越 来 越 大 ， 实 时 处 理 能 
力 成 为 了 许多 客户 需要 面 对 的 首要 挑战 。Hadoop 的 MapReduce 是 一 个 批 处 理 计算 框架 ， 在 实时 
计算 处 理 方面 显得 十 分 乏力 。Hadoop 生态 圈 终 于 迎 来 了 实时 流 处 理 框架 。 除 了 实时 性 ， 流 处 理 
可 以 处 理 更 复杂 的 任务 ， 能 够 以 低 延 时 执行 大 部 分 批 处 理 的 工作 任务 。 一 个 典型 的 流 架构 如 图 
2-9 所 示 ， 由 三 个 步骤 组 成 : 


2-9 典型 的 流 架构 
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@ 采集 模块 组 件 是 从 各 种 数据 源 收集 数据 流 ( 如 图 2-8 的 步骤 1) ; 
@ ”集成 模块 组 件 集成 各 种 数据 流 ， 使 它们 可 用 于 直接 消费 (如 图 2-8 的 步骤 2) ; 
@ 分析 模块 组 件 用 来 分 析 消 费 这 些 流 数据 。 


这 三 个 步骤 中 ， 第 一 步 是 从 各 种 数据 源 收集 事件 ， 如 图 2-8 的 Flume 组 件 。 这 些 事件 来 自 于 
数据 库 、 日 志 、 传 感 器 等 ， 这 些 事件 需要 清理 组 织 化 到 一 个 中 心 。 第 二 步 ， 在 一 个 中 心 集成 各 种 
流 ， 典 型 工具 如 图 2-8 所 示 的 Apache Kafka。Katka 提供 一 个 broker 功能 ， 以 高 可 靠 性 来 收集 和 
缓冲 数据 ， 并 分 发 到 各 种 对 不 同 流感 兴趣 的 消费 者 那里 进行 分 析 。 第 三 步 ， 对 流 进行 真正 的 分 
析 ， 比 如 创建 计数 器 实现 聚合 ，Map/Reduce 之 类 计算 ， 将 各 种 流 Join 一 起 分 析 等 等 ， 提 供 了 数 
据 分 析 所 需 的 一 步 到 位 的 高 级 编程 。 

在 Apache 下 有 多 个 流 处 理 系统 ， 例 如 : Apache Kafka、Apache Storm、Apache Spark 
Streaming、Apache Flink 等 。 尽 管 Spark 比 Hadoop 要 快 很 多 ， 但 是 Spark 还 不 是 一 个 纯 流 处 理 
引擎 。Spark 只 是 一 个 处 理 小 部 分 输入 数据 的 快速 批 操作 〔 微 批 处 理 模式 )。 这 就 是 Flink 与 
Spark 流 处 理 的 区 别 。Spark 流 处 理 提供 了 完整 的 容错 功能 ， 并 保证 了 对 流 数 据 仅 一 次 处 理 〈 也 
就 是 说 ， 如 果 一 个 节点 失败 ， 它 能 恢复 所 有 的 状态 和 结果 )。 这 是 Flink 和 Storm 所 不 能 提供 的 
功能 。Flink 和 Storm 的 应 用 开发 人 员 需 要 考虑 数据 丢失 的 情况 ， 这 也 限制 了 开发 人 员 开 发 复杂 
的 应 用 系统 。 


了 .和 框架 的 选择 


大 数据 系统 架构 有 两 个 组 成 部 分 ， 实 时 数据 流 处 理 和 批量 数据 处 理 。 我 们 根据 具体 的 需求 选 
择 适 当 的 数据 处 理 框架 。 一 些 框架 适用 于 批量 数据 处 理 ， 而 另外 一 些 适 用 于 实时 数据 处 理 。 一 些 
框架 使 用 内 存 模式 ， 另 外 一 些 是 基于 磁盘 IO 处 理 模 式 。 基 于 内 存 的 框架 性 能 明显 优 于 基于 磁盘 
IO 的 框架 ， 但 是 同时 成 本 也 高 很 多 。 总 之 ， 要 选择 一 个 能 够 满足 需求 的 框架 。 和 否则 就 有 可 能 既 
无 法 满足 功能 需求 ， 也 无 法 满足 非 功 能 需求 〈 比 如 : 性 能 需求 )。 

一 些 框架 将 数据 划分 成 较 小 的 块 。 这 些小 数据 块 由 各 个 作业 独立 处 理 。 协 调 器 管理 所 有 这 些 
独立 的 子 作 业 。 数 据 分 块 是 需要 小 心 的。 数据 块 越 小 ， 就 会 产生 越 多 的 作业 ， 这 样 就 会 增加 系统 
初始 化 作业 和 清理 作业 的 负担 。 如 果 数 据 块 太 大， 数据 传输 可 能 需要 很 长 时 间 才能 完成 。 这 也 可 
能 导致 资源 利用 不 均衡 ， 长 时 间 在 一 台 服 务 器 上 运行 一 个 大 作业 ， 而 其 他 服务 器 就 会 等 待 而 造成 
处 理 能 力 的 浪费 。 不 要 忘 了 查看 一 个 任务 的 作业 总 数 ， 在 必要 时 调整 这 个 参数 。 尽 量 实时 监控 数 
据 块 的 传输 。 

大 数据 分 析 结果 应 该 保存 成 用 户 期 望 看 到 的 格式 。 如 果 用 户 要 求 按照 每 周 的 时 间 序列 汇总 输 
出 ， 那 么 你 就 要 将 结果 以 周 为 单位 进行 汇总 保存 。 
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Hadoop 正式 诞生 于 2006 年 1 月 28 日 ， 是 多 个 开源 项 目的 生态 系统 ， 它 从 根本 上 改变 了 企 
业 存储 、 处 理 和 分 析 数 据 的 方式 。Hadoop 以 一 种 开源 的 方式 创建 ， 开 源 的 强大 力量 可 以 创造 标 
准 ， 人 人 共享 ， 这 样 才 有 更 多 的 人 参与 进来 并 不 断 完善 。 十 年 前 谁 也 没有 料想 到 Hadoop 能 取得 
今天 这 样 的 成 就 。Hadoop 之 父 Doug Cutting 认为 Hadoop 正 处 于 医 抛 的 发 展期 ， 而 且 这 样 的 莲 
勃 至 少 还 需要 几 十 年 。 由 于 Hadoop 深 受 客户 欢迎 ， 许 多 公司 都 推出 了 各 自 版 本 的 Hadoop， 也 
有 一 些 公司 则 围绕 Hadoop 开发 产品 。 我 们 首先 介绍 那些 提供 Hadoop 发 行 版 的 主流 厂商 ， 然 后 
选取 其 中 一 个 厂商 的 产品 作为 示例 来 安装 和 配置 大 数据 软件 。 


Hadoop 发 行 版 


Hadoop 包含 了 很 多 子 项 目 ， 它 们 一 起 构成 了 Hadoop 生态 圈 。 在 这 十 年 间 ， 新 技术 〈 如 : 
Spark) 和 新 版 本 不 断 推出 ， 日 新 月 异 。 这 给 我 们 带 来 2 个 痛 点 : 


@ ”我 们 很 难 及 时 地 跟踪 所 有 这 些 新 技术 和 新 版 本 ; 
@ 怎么 确保 这 些 新 旧版 本 的 不 同 软件 组 件 之 间 没 有 冲突 。 
国外 出 现 了 这 样 的 一 些 公 司 来 解决 这 些 痛 点 : 他 们 将 所 有 这 些 版 本 兼容 的 技术 产品 打 成 一 个 
包 ， 并 提供 了 简单 的 安装 程序 和 集成 管理 系统 。 虽 然 这 些 公司 采用 不 同 的 方式 方法 ， 但 是 都 基本 
解决 了 上 述 的 痛 点 。 这 些 公司 就 是 “推出 了 各 自 版 本 的 Hadoop” 的 公司 。 

不 收费 的 Hadoop 版 本 主要 有 三 个 〈 均 是 国外 厂商 )， 分 别 是 : Apache《〈 最 原始 的 版 本 ， 所 
有 发 行 版 均 基于 这 个 版 本 进行 改进 )、Cloudera 版 本 (Cloudera’s Distribution Including Apache 
Hadoop， 简 称 CDH)、Hortonworks 版 本 (Hortonworks Data Platform， 简 称 HDP)， 下 面 我 们 简 
单 介绍 后 面 2 个 版 本 。 


3.1.1 Cloudera 
Cloudera 公司 于 2008 年 在 美国 硅谷 创建 ， 是 企业 级 Hadoop 技术 服务 提供 商 ， 已 经 获得 了 
6.7 亿美 元 的 投资 。Cloudera 提供 了 第 一 个 基于 开源 Hadoop 的 商业 发 行 版 ， 第 一 个 添加 NoSQL 
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(HBase) 到 Hadoop 平台 ， 第 一 个 在 HDFS 上 提供 SQL 查询 能 力 的 平台 (Impala)， 第 一 个 将 
流 数 据 处 理 能 力 〈Spark) 添加 到 Hadoop 发 行 版 的 厂商 。 

用 户 真 正在 乎 基于 Hadoop 的 平台 和 能 达到 的 业务 结果 ， 而 不 是 Hadoop 本 身 。Hadoop 之 初 
的 定位 就 是 一 个 经 济 型 的 深度 存储 和 数据 处 理 平台 ， 我 们 陆续 看 到 如 今 大 大 小 小 的 企业 都 在 用 这 
个 平台 进行 部 署 ， 涉 及 的 创新 应 用 也 越发 广泛 。 而 Cloudera 提供 的 Cloudera Hadoop 发 行 版 ( 简 
称 CDH) 就 是 一 个 稳定 的 Hadoop 版 本 ， 它 简化 了 Hadoop 本 身 的 安装 和 管理 ， 让 Hadoop 使 用 
者 省 心 省 力 〈 当 然 ， 如 你 果 技术 能 力 强 ， 可 以 用 原生 Hadoop， 自 己 定 制 ， 这 也 会 更 灵活 )。 

CDH 的 系统 架构 如 图 3-1 所 示 。 截 至 2016 年 5 月 的 最 新 的 版 本 是 CDH 5.7。 它 的 下 载 地址 
为 : http://www.cloudera.com/downloads.html 。 推 荐 的 安装 方法 是 使 用 cloudera-manager- 
installerbin 安装 。 我 们 只 要 从 官网 下 载 cloudera-manager-installer.bin， 然 后 执行 这 个 bin 文件 ， 
剩 下 的 就 是 等 待 下 载 和 安装 。 


PROCESS, ANALYZE, SERVE 


STREAM SE 


UNIFIED SERVICES 


AGEMENT DATA 
OPERATIOI i > MANAGEMENT 


NoSQL 


INTEGRATE 
图 3-1 CDH 产品 架构 (来 自 CDH 官网 ) 
3.1.2 HortonWorks 


HortonWorks 公司 于 2011 年 在 美国 硅谷 创建 ， 已 经 在 NASDAQ 上 市 。Horton Works 提供 的 
Hadoop 发 行 版 为 Hortonworks Data Platform (HDP) 。HDP 的 整个 架构 如 图 3-2 所 示 。 
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[ES 


Data Lifecycle & Provisioning, Managing 
Governance Mmoen User Veows 5 Monltoring 
ra Auditing 
F on Data Protection 
| | Ramger 


nana 


my | EW | Eo | En Sa 
YARN : 数据 操作 系统 


HDFS Hadoop Distributed File System 


°° 
图 3-2 HDP 体系 架构 


但 


如 图 3-2 所 示 ，HDP 包含 了 Apache Hadoop 的 必要 的 组 件 ， 它 包括 : YARN、HDFS、Pig、 
Hive、HBase、Zookeeper 和 Ambari。HDP 还 包含 了 Apache Spark、Solr 和 Storm 等 新 兴 技 
术 。HDFS 为 大 数据 提供 可 扩展 、 容 错 、 具 有 成 本 效益 的 存储 。YARN 提供 资源 管理 和 可 插 拔 
架构 ， 以 支持 广泛 的 数据 访问 方法 。YARN 为 各 种 处 理 引擎 提供 基础 ， 能 够 同时 以 多 种 方式 与 
相同 数据 交互 〈 从 批量 到 交互 式 SQL 或 使 用 NoSQL 的 低 延 迟 访问 )。HDP 能 够 根据 策略 加 载 
和 管理 数据 进行 身份 验证 、 授 权 和 数据 保护 。HDP 支持 大 规模 配置 、 管 理 、 监 控 和 运营 Hadoop 
集群 。HDP 提供 了 一 整套 运营 功能 ， 不 仅 提 供 集群 运行 状况 的 可 见 性 ， 还 提供 工具 来 管理 配 
置 。Apache Ambari 提供 API 与 现 有 管理 系统 集成 。HDP 能 够 与 其 他 的 数据 分 析 工 具 集成 。 
HDP 支持 Windows 系统 的 安装 和 配置 ， 并 支持 以 下 版 本 的 Linux: 


@@ RHELv6.x 和 v5.x 
CentOS v6.x 和 V5.x 
Oracle Linux v6.x 和 V5.x 
SLES v11, SPl1 和 SP3 
Ubuntu Precise v12.04 


本 章 后 续 的 安装 和 配置 是 以 HDP 为 基础 进行 阐述 。 


3.1.3 MapR 
MapR 也 是 位 于 美国 硅谷 的 一 个 软件 公司 ， 专 门 开发 和 销售 Apache Hadoop 的 衍生 软件 ， 它 
对 Apache Hadoop 主要 贡献 有 : HBase、Pig、Apache Hive 以 及 Apache ZooKeeper。MapR 的 
Apache Hadoop 发 行 版 提供 了 完整 的 数据 保护 和 无 单 点 故障 ， 提 高 了 性 能 与 易 用 性 。MapR 被 选 
择 为 亚马逊 Elastic Map Reduce (EMR ) 的 升级 版 本 。 
MapR 的 MapR Converged Data Platform 如 图 3-3 所 示 。 它 提供 了 2 个 版 本 : 免费 的 社区 版 
(Converged Community Edition) 和 收费 的 企业 版 〈Converged Enterprise Edition )。 
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Open Source Engines and Tools Commercial Engines and Applications 


6eueW pagiun 


Enterprise Grade Platform Services 


Data 


Web-Scale Storage Database | Event Streaming 
NapRFS MapR-D8 apR Speams 


HighAvailability Realtime = UnifiedSecurity Multitenancy = DisasterRecovery GlobalNamespace 


图 3-3 MapR Converged Data Platform 


安装 Hadoop 前 的 准备 工作 


在 Hadoop 集群 中 ， 大 部 分 的 机 器 都 是 作为 Datanode 工作 的 。Datanode 的 硬件 规格 推荐 采 
用 表 3-1 的 配置 : 
表 3-1 Datanode 的 硬件 配置 
配置 
0 


24GB 内 存 


Namenode 提供 整个 HDFS 文件 系统 的 目录 管理 、 块 管理 等 所 有 服务 ， 因 此 需要 更 多 的 内 
存 ， 与 集群 中 的 数据 块 数量 相对 应 ， 并 且 需 要 优化 RAM 的 内 存 通道 带宽 ， 采 用 双 通 道 或 三 通道 
以 上 内 存 。 硬 件 规格 可 以 采用 表 3-2 的 配置 : 


表 3-2 Namenode 的 硬件 配置 


个 二 下 


2 个 到 吕 (单间 127) 


网 络 千 兆 /万 兆 以 太 网 


Secondary namenode 在 小 型 集群 中 可 以 和 Namenode 共用 一 台 机 器 ， 较 大 的 集群 可 以 采用 与 
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Namenode 相同 的 硬件 。 考 虑 到 关键 节点 的 容错 性 ， 建 议 读 者 购买 加 固 的 服务 器 来 运行 
Namenodes 和 Jobtrackers ， 配 有 宛 余 电源 和 企业 级 RAID 磁盘 。 最 好 是 有 一 个 备用 机 ， 当 
namenode 或 jobtracker 其 中 之 一 突然 发 生 故障 时 可 以 替代 使 用 。 

Hadoop 集群 往往 需要 运行 几 十 、 几 百 或 上 千 个 节点 ， 构 建 匹 配 其 工作 负载 的 硬件 ， 可 以 为 

-个 运营 团队 节省 可 观 的 成 本 ， 因 此 ， 需 要 精心 的 策划 和 慎重 的 选择 。 读 者 需要 注意 的 是 ， 

HDFS 目前 还 不 是 一 个 HA 〈 高 可 用 性 ) 系统 ， 这 是 因为 NameNode 是 HDFS 集群 中 的 单 点 失 
败 。 如 果 NameNode 下 线 了 ， 那 整个 HDFS 文件 系统 就 不 可 用 。 虽 然 我 们 可 以 在 另 一 个 单独 的 
机 器 上 部 署 第 二 个 NameNode， 但 是 这 第 二 个 NameNode 无 法 做 到 实时 的 元 余 性 ， 它 只 是 提供 
了 一 个 有 延 时 的 副本 。 根 据 我 们 的 实际 经 验 ，DataNode 不 需要 使 用 RAID 存储 ， 这 是 因为 文件 
数据 已 经 在 多 服务 器 之 间 复 制 了 。 我 们 建议 NameNode 所 在 的 机 器 应 该 是 : 


1. 具有 很 多 内 存 的 ， 性 能 良好 的 服务 器 ; 内 存 越 多 ， 文 件 系统 越 大 ， 块 的 大 小 可 以 越 小 ; 
2. 尽量 使 用 ECC RAM; 
3. 不 要 在 NameNode 所 在 的 机 器 上 安装 DataNode、JobTracker 或 TaskTracker 服务 。 


上 面 是 整个 硬件 的 一 些 考虑 。 对 于 软件 ， 特 别 是 操作 系统 部 分 ， 可 选 的 Linux 很 多 。 表 3-3 
是 我 们 在 本 书 中 的 一 个 选择 ， 供 读者 参考 。 


表 3-3 软件 配置 
| | 


HDP (Hortonworks Data Platform ) 2.4 
Apaaheanbari 


HDP2.4 是 HortonWorks 提供 的 Hadoop 发 行 版 ， 提 供 大 数据 云 存储 、 大 数据 处 理 和 分 析 等 
服务 。Apache Ambari 是 对 Hadoop 进行 监控 、 管 理 和 生命 周期 管理 的 基于 网 页 的 开源 项 目 。 
Ambari 解决 Hadoop 生态 系统 部 署 ， 这 是 因为 hadoop 组 件 间 有 依赖 ， 包 括 配 置 、 版 本 、 启 动 顺 
序 、 权 限 配 置 等 。 


3.2.1 Linux 主机 配置 


为 了 方便 集群 中 各 个 主机 之 间 的 通信 ， 我 们 需要 设置 各 主机 卫 地 址 。 我 们 以 两 台 机 器 为 例 
来 安装 和 配置 Hadoop， 如 表 3-4 所 示 。 
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表 3-4 主机 配置 


机 器 名 称 IP 地 址 数量 
master 192.168.0.110 和 
slave01 192.168.0.89 1 


修改 完成 后 ， 输 入 命令 IP addr 查看 IP 是 否 修改 成 功 。 为 了 方便 集群 中 各 个 主机 使 用 机 器 
名 称 进行 通信 ， 我 们 设置 主机 名 如 下 : 


如 果 输 出 结果 中 有 “HOSTNAME=master”， 则 修改 成 功 。 按 照 上 面 的 方法 修 另外 一 个 
centos 系统 的 主机 名 为 slave01。 


3.2.2 配置 Java 环境 
Hadoop 需要 Java 的 支持 ， 下 面 我 们 给 集群 中 的 各 主机 配置 Java 环境 。 
1. 第 一 步 : 检查 系统 是 否 有 已 安装 好 的 jdk。 具 体操 作 如 下 : 
ngalorep jdk 48RER 的 jdk 
如 果 系统 已 安装 jdk， 则 需 先 印 载 对 应 的 jdk， 命 令 如 下 : 
fp re -nodeps jdkr1.7.0 25-fcs.x86 64 #8 载 NHB 的 jdk 
具体 如 下 所 示 : 
ees- -des Ss 
root@master 人 So -e --nodeps jdk-1.7.0_25-fcs.x86_64 
和 had 关 java on 


bash: jav: Command not fo 
[ootenavter hadoop]# 


2. 第 二 步 : 下 载 JDK 
访问 Java 官方 网 站 ， 如 图 3-4 所 示 ， 找 对 图 中 框 线 的 部 分 ， 下 载 即 可 。 
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7u45 linux-arm-vip-hAlt tar gz 
Tu45-linux-arm-vip-sfit tar gz 


Solaris x86 (SVRA package) 
Solaris x86 


ON 7u45- slaris -580 er 

Solaris x64 (SVRA package) 吾 jdk7 olaris-x54tarZ 
世 jdk-7u45-solaris-x64.tar.gz 

Solaris SPARC (SVR4 package) 8 昔 jdk-7u45-solaris-sparc tarZ 


Solans SPARC— 至 Ja 7u45-solanis-sparc tar gz 
Solaris SPARC 64-bit (SVR4 package) & -7u45-solaris-sparcv9 tarZ 
Solaris SPARC 64-bit -7u45-solaris-sparcv9 tar gz 
Windows x86 了 jdk-7u45-windows-586.exe 
Windows x64 12531MB § jdk-7u45-windows-x64.exe 

Back to top 


图 3-4 下 载 JDK 
3. 第 三 步 : 安装 JDK 
进入 jdk 所 在 目录 ， 输 入 以 下 命令 安装 jdk: 


按照 提示 ， 按 回 车 键 ， 即 可 完成 安装 。 
第 四 步 : 配置 Java 环境 


在 文件 最 末尾 加 上 如 下 信息 : 


第 五 步 : 测试 Java 是 否 安装 成 功 
输入 “java -version”， 如 果 看 到 屏幕 上 显示 如 下 信息 : 


[root@localhost Share]# java -version 


ava VerSIon "IT.7.9 5 
ava(TM) SE Runtime Environment (build 1.7.9 45-b18) 
ava HotSpot(TM) 64-Bit Server VM (build 24.45-b98，mixed mode) 


则 证 明 安 装 成 功 。 然 后 按照 上 面 的 方法 在 其 他 机 器 上 安装 JDK。 


3.2.3 安装 NTP 和 python 


1. 给 集群 中 各 主机 安装 NTP 
NTP 用 来 在 服务 器 上 保持 时 间 同 步 。 由 于 集群 中 的 主机 时 间 必 须要 同步 ， 所 以 我 们 必须 安 
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装 NTP 并 启动 NTP 服务 ， 输 入 命令 : 


Yum install ntp -y 


service ntp start # 开 启 ntpd 服务 
ntpdate asia.pool.ntp.org 

chkconfig ntpd on # 设 置 ntpd 服务 为 默认 启动 
2. 安装 python 


由 于 ambari 是 基于 python 编写 的 ， 所 以 我 们 必须 给 集群 中 各 主机 安装 python 2.6 或 更 高 的 
版 本 。CentOS 6.5 默认 已 安装 python， 我 们 输入 以 下 命令 查看 版 本 是 否 满 足 要 求 (python2.6 or 
later): 


python --version # 查 看 Python 版 本 (python2.6 or later) 


Python 版 本 信息 如 图 3-5 所 示 : 


图 3-5 Python 版 本 信息 


3.2.4 安装 和 配置 openssl 

由 于 master 与 slave 之 间 是 通过 SSH 通信 的 ， 而 SSH 是 依赖 于 SSL 的 ， 所 以 ， 下 面 我 们 给 
集群 中 各 主机 安装 或 升级 openssl 版 本 的 方法 。 

1. 第 一 步 : 检查 openss|l 版 本 


输入 : rpm -qa | grep openssl 
结果 : openss1l-1.0.1e-15.e16.x86 64 


2. 第 二 步 : 升级 openssl 


上 一 步 中 如 果 输 出 的 是 ，openssl-1.0.1e-15.x86_64 (1.0.1 build 15) ， 则 我 们 需要 通过 下 面 的 
命令 行 来 升级 openssl。 


yum upgrade openssl 


3. 第 三 步 : 检查 openss| 是 否 为 最 新 版 本 ( 1.0.1 build 16 ) 


rpm -qa | grep openssl 


结果 应 是 : openssl-1.0.1e-16.el6.x86_64。 
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1. 第 一 步 : 开启 apache 
我 们 还 需要 开启 集群 中 各 主机 的 apache http 服务 ， 输 入 如 下 命令 : 


2. 第 二 步 : 关闭 防火 墙 、SELinux， 并 统一 时 区 


由 于 Hadoop 有 一 套 自身 的 安全 机 制 ， 所 以 我 们 需要 关闭 集群 中 所 有 服务 器 的 防火 墙 及 
SELinux， 并 统一 时 区 。 
关闭 防火 墙 : 


关闭 SELinux: 


最 后 需要 统一 时 间 ， 设 置 Linux 系统 为 同一 个 时 区 。 


3.2.6 配置 SSH 无 密码 访问 
以 下 操作 只 需 在 master 上 进行 。 运 行 本 书 附录 上 给 出 的 auth-ssh.sh 脚本 即 可 : 


然后 测试 是 否 互 通 。 在 master 上 ， 输 入 “ssh slave01”。 如 果 出 现 如 下 所 示 的 信息 ， 则 表示 
master 可 以 免 密 码 登 录 slave01 成 功 : 


[hadoop@master Desktop]$ ssh stLaveg1 
from master | pei 


st Togin: Tue Feb 18 19:35:56 2014 
-$s 


同样 ， 在 slave01 上 ， 输 入 “ssh master”， 如 果 出 现 如 下 所 示 的 信息 ， 表 示 slave01 可 以 免 
密码 登录 master 成 功 : 
[hadoop@slaveQ1 Desktop]$ ssh master Pd 


i Togin: Tue Feb 18 19:35:36 2014 from slaveQl 
adoopGnaster ~]5 重 


置 大 数据 软件 


3.3 安装 Ambari 和 HDP 


虽然 Ambari 和 HDP 提供 了 在 线 安装 ， 但 是 由 于 安装 文件 很 大 ， 所 以 ， 我 们 建议 先 下 载 安 
装 文件 ， 然 后 离线 安装 。 安 装 过 程 我 们 分 几 个 小 节 说 明 如 下 。 


3.3.1 配置 安装 包 文 件 


当 安 装 文件 下 载 后 ， 我 们 将 这 些 压 缩 包 的 文件 解压 到 /varwww/html 中 。 为 了 方便 管理 ， 我 
们 建议 在 该 目录 下 创建 一 个 hdp 子 目录 ， 将 这 些 安装 包 都 放 在 这 个 目录 中 。 我 们 使 用 tar 命令 解 


压缩 : 


之 后 ， 在 /etc/yum.repos.d 创建 三 个 repo 文件 : 


请 复制 以 下 baseurl 的 链接 地 址 到 浏览 器 中 ， 看 是 否 能 打开 。 如 不 能 打开 ， 则 需要 找到 对 应 


的 文件 地 址 ， 对 repo 文件 的 baseurl 进行 修改 。 


ambari.repo 


hdp.repo 


hdp-util.repo 


之 后 ， 将 写 好 的 文件 ， 发 送 至 其 他 节点 上 : 


大 数据 技术 入 门 


3.3.2 安装 Ambari 


将 repo 文件 发 送 至 各 节点 后 ， 在 各 节点 需要 运行 yum clean all 以 清空 缓存 文件 ， 为 了 检验 
文件 是 否 配置 正确 ， 可 以 使 用 yum search ambari-agent、yum search Oozie、yum search gangli 命 
令 检 查 。 如 果 配置 有 问题 ， 就 会 出 现 找 不 到 文件 包 的 问题 。 

在 主 节点 运行 : 


在 所 有 节点 上 运行 : 


yum 是 一 个 在 Shell 上 使 用 的 软件 包 管理 器 。 
基于 我 们 的 经 验 ， 在 安装 Ambari 时 ， 有 时 出 现下 面 错误 : 


解决 办 法 如 下 : 


(1) 将 RPM-GPG-KEY-Jenkins 放 入 /etc/pki/rpm-gpg 
(2) 运行 rpm --import /etc/pki/rpm-gpg/RPM* 


在 主 节点 上 ， 运 行 以 下 命令 启动 Ambari 服务 器 : 


在 所 有 节点 上 ， 运 行 命令 启动 ambari agent: 


在 所 有 节点 上 ， 修 改 /etc/ambari-agent/confYambari-agent.ini 文件 : 


打开 浏览 器 ， 输 入 地 址 : 
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出 现 Ambari 的 登录 界面 ， 登 录 的 用 户 名 和 密码 为 : 


3.3.3 安装 和 配置 HDP 


登录 Ambari 后 ， 进 行 配置 向 导 ， 这 时 就 可 以 按照 自己 的 需要 进行 HDP 的 安装 和 配置 了 。 
具体 步骤 如 下 : 


CT01 选择 版 本 ， 如 图 3-6 所 示 : 


Select Stack 
Pease seec pe se da pu yau want 0 ine to mt your Naooop Cue 


Sucks 
人 HOP21 
Chop20 
Cop132 
CoP13 


aavanced Repowtory opsom 


Coalomge me repogory Ba URLS fo gownieegng he Sac 309ware Peckages 时 your oss go not 
ave aceas io the mhernel you wa Nave io crease 3 peal mror of he Shack reposdory fl mactenneoe 
by 2 hosts and use ove Base URLs here 


Important: 


os Name Base URL 

Wredhats HDP-2.1 httpWpublic-repo-1.hortonworks com/HDP/centos5/2 wupdat © 
HDP-UTILS- httpWpublic-repo-1 hortonworks com/HDP-UTILS-1.1.0.17/re © 
11017 

WW redhate HDP-21 http-//public-repo-1 hortonworks comvHDP/centos6/2 wupdat © 
HDP-UTILS- http-W/public-repo-1_ hortonworks covHDP-UTILS-1.1.0.17/re © 
11017 

网 Suse11 HDP-2.1 http-W/public-repo-1 hortonworks comvHDP/suse11sp3/2 Wup: © 
HDP-UTILS- http.//public-repo-1.hortonworks comHDP-UTILS-1.1.0.17/re © 
110.17 


FF Skip Reposltory Base URL validation (Advanced) © 


-ma 
3-6 选择 安装 版 本 


在 OS 上 ， 只 选择 redhat6 一 栏 。 我 们 推荐 使 用 本 地 安装 ， 因 此 在 这 里 我 们 需要 修改 对 应 的 
yum 源 地 址 。 我 们 将 后 面 的 Base URL 改 为 如 下 地 址 : 
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注意 : 请 直接 把 地 址 复制 到 浏览 器 中 ， 看 是 否 可 以 访问 。 
GDI02 单 去 Next 按钮， 在 Install Options 上 配置 SSH 键 ， 如 图 3-7 所 示 。 


Host Registration Information 
© Provide your SSH Private Key to automatically register hosts 


| #xkxt. 


-----! ‘BEGIN RSA PRIVATE KEY----— 
MIITEOgIBAAKCAQEAOSE/hdchQGaNbt laVvN284YaNTimfFI3WuaTqDJBbxe 
W+ZeC -| 
£/AHntWZ8GYPS+GfAXiIFHXHhH1mf0j70iNS89CzIqBgINnreYSUq7hoYsl 
SSH user (root or passwordless sudo account) root 


© Perform manual registration on hosts and do not use SSH 


i sermon] 


i 
我 们 可 以 通过 下 面 的 方法 获得 SSH private key: 


然后 拷贝 上 述 命 令 的 输出 结果 到 Install Options 窗口 中 。 


PT03 在 “Confirm Hosts” 中 确认 节点 ， 然 后 点 击 Next 按钮 。 

全 DI04 在 “Choose Services” 窗 口 确认 安装 的 服务 ， 选 择 默 认 值 即 可 ， 如 图 3-8 所 示 。 
《05 在 “Assign Masters” 窗 口 确认 安装 的 Master 的 服务 ， 选 择 默认 值 即 可 。 
J06 在 “Assign Slaves and Clients” 窗 口 确认 安装 的 Slave 的 服务 ， 选 择 默认 值 即 可 。 
DI07 最 后 确认 安装 的 服务 版 本 ， 就 开始 安装 。 

DI08 安装 结束 后 ， 安 装 程序 会 给 出 总 结 信息 。 

I09 安装 成 功 后 的 界面 如 图 3-9 所 示 。 


Ambari 


CLUSTER INSTALL 
wecome 
Select stack 
Iinstall Optons 


Licensed under Ine Apache Lcense, 


Choose Services 


Choose whcn sevees you want Io nstal on your chuster 


Service allnone Version 
PF HoFs 24021 
WS YARN + MapReduce2 24021 
1 Tez 04021 
忆 Nagios aso 
Gangia ao 
FF Hve + Hcat 013021 
PP Hoase Desoz1 
ppg 012121 
FF sqpop 14421 
Pooae 40021 
区 zookeeper 34621 
Faeon 05021 
PP stom 09121 
— Bock 
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‘table & storage management service 


Non-relatonal dtstiouted gatanase anc centralzed servce for conguration 
mana0ement synenrcngaon 


Serpting platform for anayzing large catasets 


Tool tor Wanslemng buls data belween Apache Hadoop and stiructured daia 
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aso Includes tne Instalaton of the optonal Cozle Web Console whch reles 
on and wal nstal the EXUS Liorary 


Centralzed servce wnich provides hghiy retatle dstribuled coordmation 
Data management and processing platiorm 


Apacne raqoop Stream processing mamework 
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wo 
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图 3-9 


启动 HDP 


在 Hadoop 安装 后 ， 我 们 启动 Hadoop 相关 服务 ， 然 后 尝试 使 用 这 些 服务 。 


据 软件 
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大 数据 技术 入 门 


3.4.1 ”启动 和 停止 服务 


进入 ambari 后 ， 可 以 看 到 如 图 3-10 所 示 的 界面 。 左 侧 是 HDP 包含 的 所 有 组 件 ， 如 果 组 件 
左 侧 显 示 为 绿色 对 号 ， 表 示 成 功 启动 。 


po drrreeop 


enn 


ResourceManager Resourcelanages Nodetonagers Live YARN Memory YARN Links 


3-10 ambari 界面 


以 HDFS 服务 为 例 ， 我 们 点 击 右 上 角 ， 选 择 对 应 的 选项 ， 启 动 或 停止 服务 即 可 ， 如 图 3-11 
所 示 。 


Summary sp 


we © ne wea oranegl 5 CRestart A 

se © sine es peten © Aestart DataNodes 

， mmMove NameNode 
mm Move SNameNode 

,+ Enable NameNode HA 


npneeeeeooeoeooenpnppeenpe 


Fum Metries 
a Namenooe pC aea om rovmes orvewa Btocns Unae Repllcaled glocts HOFS Space unitaaaon 
© spe I 

rr | 0 0 5326 2% 


3-11 HDFS 管理 
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第 3 章 安装 与 配置 大 数据 软件 


3.4.2 使 用 HDFS 


我 们 对 HDFS 做 一 些 简单 的 测试 操作 : 首先 查看 HDFS 状态 ， 查 看 有 哪些 datanode， 以 及 各 
个 datanode 的 情况 。 我 们 输入 以 下 命令 : 


上 面 的 “sudo -u hd 全 ”是 切换 到 hdfs 用 户 ， 而 dfsadmin 是 运行 一 个 HDFS 的 dfsadmin 客户 
端 。 它 的 参数 -report 用 来 报告 文件 系统 的 基本 信息 和 统计 信息 ， 如 图 3-12 所 示 。 


IE 
Configured Capacity: 1 

Present Capacity: 57167847382 (53.24 GB) 

DFS Remaining: 55486968418 (51.67 GB) 

DFS Used: 1687778964 (1.57 6B) 

DFS Used%: 2.95% 

Under replicated blocks: 5416 

Blocks with corrupt replicas: 9 

Missing blocks: 9 

Missing blocks (with replication factor 1): 9 


Configured Capacity: 51770945536 (48.22 GB) 
DFS Used: 843891536 (804.89 MB) 

Non DFS Used: 14474557461 (13.48 6B) 

DFS Remaining: 36452496545 (33.95 GB) 

DFS Used%: 1.63% 

DFS Remaining%: 79.41% 

Configured Cache Capacity: 9 (9 B) 

Cache Used: 9 (9 B) 

Cache Remaining: © (9 B) 

Cache Useds: 190.00% 

Cache Remaining%: 0.00% 

Xceivers: 12 

Last contact: Mon Aug 24 19:68:22 CST 2815 


8 gster) 


7 Normal 
Configured Capacity: 51776945536 (48.22 GB) 
DFS Used: 843887434 (864.79 MB) 

Non DFS Used: 31899486229 (29.71 GB) 
DFS Remaining: 19927571873 (17.72 GB) 
DFS Used%: 1.63% 

DFS Remaining%: 36,75% 

Configured Cache Capacity: 9 (9 B) 
Cache Used: 9 (9 B) 

Cache Remaining: 9 (9 B) 

Cache Useds: 190.00% 

Cache Remaining%: 0.00% 


3-12 显示 HDFS 状态 
下 面 我 们 在 HDFS 上 创建 一 个 文件 来， 输入 命令 : 


并 将 本 地 文件 inputl.txt 传 到 hdfs 的 /tmp/input 目录 下 : 
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大 数据 技术 入 门 


然后 查看 HDFS 上 的 文件 ， 验 证 各 节点 的 inputl.txt 是 否 上 传 成 功 : 


以 上 操作 命令 执行 结果 如 图 3-13 所 示 。 


[rootGmaster Desktop]# hadoop fs -mkdir /tmp/input 

Mkdir: “/tmp/input': File exists 

[rootGmaster Desktop]# hadoop fs -put '/root/Desktop/inputl.txt' /tmp/input 
[rootGmaster Desktop]# hadoop fs -ls /tmp/input 

:ound 1 items 

-rw-r--r-- 3 root hdfs 0 2615-98-24 19:18 /tmp/input/inputl.txt 
[rootGmaster Desktop]# ssh SsLaveg1 

-ast login: Mon Aug 24 17:39:15 2015 from master 

[rootG@sLaveg61 ~]# hadoop fs -ls /tmp/input 

:ound 1 items 

"rw-r--r-- 3 root hdfs 9 2915-98-24 19:18 /tmp/input/input1l.txt 
[rootGstLave61 ~]# 国 


图 3-13 文件 操作 


读者 可 以 在 HDFS 上 执行 以 下 更 多 的 命令 ,对 文件 进行 操作 : 


了 引 , Hadoop 的 特性 


Hadoop 是 一 个 能 够 让 用 户 轻 松 架构 和 使 用 的 分 布 式 计算 平台 。 用 户 可 以 轻松 地 在 Hadoop 


上 开发 和 运行 处 理 海量 数据 的 应 用 程序 。 它 主要 有 以 下 几 个 优点 : 


高 扩展 性 : Hadoop 可 以 扩展 至 数 千 个 节点 ， 对 数据 持续 增长 ， 数 据 量 特别 巨大 的 需求 
很 合适 。 

高 效 : Hadoop 能 够 在 节点 之 间 动 态 地 移动 数据 ， 并 保证 各 个 节点 的 动态 平衡 ， 因 此 处 
理 速度 非常 快 。 

高 容错 性 : Hadoop 能 够 自动 保存 数据 的 多 个 副本 ， 并 且 能 够 自动 将 失败 的 任务 重新 分 
配 。 

低 成 本 : Hadoop 是 开源 项 目 ， 不 仅 从 软件 上 节约 成 本 ,而且 hadoop 对 硬件 上 的 要 求 
也 不 高 ， 因 此 也 从 硬件 上 节约 了 一 大 笔 成 本 。 


第 4 章 
< 大 数据 存储 : 文件 系统 > 


- 旦 数据 进入 大 数据 系统 ， 清 洗 并 转化 为 所 需 格式 时 ， 都 需要 将 数据 存储 到 一 个 合适 的 持久 
层 中 。 一 个 最 常见 的 大 数据 存储 的 地 方 就 是 文件 系统 。HDFS 是 Hadoop 分 布 式 文件 系统 的 简 
称 ， 是 被 设计 成 适合 运行 在 通用 硬件 上 的 分 布 式 文件 系统 。 它 和 现 有 的 分 布 式 文件 系统 有 很 多 共 
同 点 : 


(1) 它 对 存储 空间 进行 统一 管理 。 在 用 户 创建 新 文件 时 为 其 分 配 空 闪 空间 ， 在 用 户 删 除 或 
修改 某 个 文件 时 ， 回 收 和 调整 存储 空间 ; 

(2) 它 实现 了 按 名 存 取 和 透明 存 取 。 所 谓 透明 存 取 是 指 不 必 了 解 文件 存放 的 物理 结构 和 查 
找 方法 等 与 存 取 介质 有 关 的 部 分 ; 

(3) 提供 文件 和 文件 夹 创建 、 更 新 和 删除 的 功能 。 

HDFS 是 支撑 大 文件 的 系统 ， 典 型 的 HDFS 文件 大 小 是 GB 到 TB 的 级 别 。 所 以 ，HDFS 采 
用 了 流 式 数据 访问 技术 。 大 数据 分 析 经 常 读 取 一 个 海量 数据 集 的 大 部 分 数据 甚至 全 部 数据 ， 因 此 
读 取 整个 数据 集 的 时 间 延 迟 比 读 取 第 一 条 记录 的 时 间 延 迟 更 重要 。 而 流 式 读 取 最 小 化 了 硬盘 的 寻 
址 开销 ， 只 需要 寻 址 一 次 ， 然 后 就 一 直 读 《与 流 数据 访问 对 应 的 是 随机 数据 访问 ， 它 要 求 定位 、 
查询 或 修改 数据 的 延迟 较 小 ， 比 较 适 合 于 创建 数据 后 再 多 次 读 写 的 情况 ， 传 统 关 系 型 数据 库 很 符 
合 这 一 点 )。 

正如 其 他 的 文件 系统 ， 我 们 可 以 通过 多 种 方式 访问 和 管理 HDFS 上 的 文件 和 目录 : HDFS 为 
开发 人 员 提 供 Java API; 可 以 在 一 个 HTTP 浏览 器 中 浏览 HDFS 中 的 文件 ， 可 以 使 用 Hadoop 
shell 命令 来 访问 文件 系统 。 


HDFS shell 命令 


HDFS 提供 了 众多 的 shell 命令 来 访问 和 管理 HDFS 上 的 文件 。Hadoop 自 带 的 shell 脚本 为 
hadoop， 对 于 HDFS 的 shell 命令 ， 就 是 使 用 “Hadoop 人 -命令 ”的 格式 来 执行 ， 如 图 4-1 所 示 。 


[Footemaster01 ~]# hadoop fs 

Usage: hadoop fs [generic options] 
[-appendToFile <localsrc> .--- <dst>] 
[-cat [-ignoreCrc] <src> ---] 


[-checksum <src> ...] 
[-chgrp [-R] GROUP PRTH...] 

[-chmod [-R] <MODE[,MODE] . - 。 | OCTRIMODE> PRTH- 

[-chown [-BR] [ORNER] [: [GROUP]] PRTH-..] 

[-copyFromLocal [-f] [-p] [-1] <localsrcy ... <dst>] 
[-copyToLocal [-p] [-ignoreCrc] [-crc] <src> --- <localdsty] 
[-count [-q] [-h] [-v] [-t [<storage type>]] <pathy ...] 


CDax 


图 4-1 Hadoop 人 -命令 
下 面 是 获取 cp shell 命令 的 帮助 信息 ， 如 图 4-2 所 示 。 


[roorB@master01 ~]# hadoop fs -help cp 

-cp [-f] [-p | -p[topax]] <src> ... <dst> : 
Copy files that match the file pattern <src> to a destination. When copying 
mltiple files, the deatination must be a directory. Passing -p preserves status 
[topax] (Limestampa，ownership，permisasion，RCLs，XRLLr) 。IE -p i3 3pecified 
with no <arg>, then preserves timestamps, ownership, permission. If -pa is 
specified, then preserves permission also because ACL is a super-set of 
permission. Passing -f overwrites the destination if it already exists. ra 
namespace extended attributes are preserved if (1) they are supported (HDFS 
only) and, (2) all of the source and target pathnames are in the /.reserved/raw 
hierarchy. raw namespace xattr preservation is determined solely by the presence 
(or absence) of the /.reserved/raw prefix and not by the -p option. 

[root@master01 ~]# 目 


图 4-2 Hadoop fs-help cp 命令 


下 面 我 们 在 HDFS 上 创建 一 个 新 目录 /yunsheng， 如 图 4-3 所 示 。 


rootEmasterd 
[hafs@master0l1 root]s$ 13 

ls: Cannot open directory -: Permission denied 
[hdfsemascer01 root]$ pwd 

/root 
[tb 
[hdfsemaster01 root]s 


图 43 创建 一 个 新 目录 命令 
然后 查看 一 下 这 个 目录 ， 如 图 4-4 所 示 。 


[Tr 
Found 13 items 
- Yarn hadoop 2015-10-10 /app-logs 
- hdfs hdfs 2015-09-11 /apps 
- hdfs hdfs 2015-09-18 /data 
- hdfs hdfs 2015-10-01 /flume2 
- hdfs hdfs 2015-09-25 /flume3 
- hdfs hdfs 2015-10-30 /flumem10 


hdfs hdfs 2015-09-08 /hdp 
mapred hdfs 2015-09-08 /mapred 
mapred hadoop 2015-09-08 /mr-history 
hdfs hdfs 2015-11-04 15:13 /product 
hdfs hdfs 2015-09-08 /tmp 

hdfs hdfs 2015-09-22 /user 


- hdfs hdfs 2015-11-05 /Yunsheng 
[hdfsemaster01 root]5 目 


图 44 查看 目录 命令 
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使 用 copyFromLocal 命令 拷贝 一 个 本 地 文件 到 HDFS 目录 下 (也 可 以 用 put 命令 )， 并 列 出 
HDFS 目录 下 的 内 容 ， 如 图 4-5 所 示 。 


[hdfsemaster01 ~]$ 13 

1-txt 6-txt 7.txt B.txt 9.txt productl1i-2 
[hdfsemaster01 ~]$ hadoop fs -copyFromLocal 9.txt /Yunsheng 
[hdfsemaster01 ~]$ hadllp fs -ls /Yunsheng 

bash: hadllp: Command not found 


[hdfsemaster01 ~]$5 hadoop fs -13 /Yunsheng 

Found 1 items 

| 一 一 下 一 一 工 一 一 3 hdfs hdfs 440055 2015-11-05 18:08 /yunsheng/9.txt 
[hdfsemasterol ~]$ 目 


4-5 ”copyFromLocal 命令 


使 用 copyToLocal 命令 拷贝 HDFS 文件 到 本 地 文件 夹 ， 也 可 以 使 用 get 命令 ， 如 图 4-6 所 示 。 


[hdfsBemaster01 ~]5 hadoop fa -copYToLocal /Yunsheng/9-LXxL /home/hdfs/fromHDFS.LxL 
15/11/05 18 39 WARN hdfs.DFSClient: DFSInputStream has been closed already 
[hdafaemaster01 ~]5$ 13 -1 /home/hdfs/ 
total 54808 
root root 1457012 Sep 28 1.txt 
root root 2772294 Oct 10 6.txt 
root root 5406510 Oct 10 3 7.txt 
root root 9433368 Oct 10 8.txt 
root root 440055 Oct 10 日 9-ExL 
hdfs hadoop 440055 Nov 5 fromHDFS. txt 
root root 36162400 Nov 2 
[hdfsemaster0l -1]5 | 


图 4-6 copyToLocal 命令 


查看 HDFS 文件 内 容 。 如 图 4-7 所 示 。 


PSG1208-K1;Al;901002226; BCABS8E17FBB. Hop8;2015-10-09> 
PSG1208-K1;Al;901002226; 8CAB8E17FBB HoP| [eb = 
PSG1208-K1;Al1;901002226; 8CAB8E17FBB4;1Hop8;2015-10-09; 
PSG1208-K1;Al;901002226; BCAB8E17FBB: Hop8;2015-10-09; 


PSG1208-K1;Al;901002226; 8CABBE17FBB Hop8;2015-10-09> 


PSG1208-K1;Al;901002226;8CABB8E17FBB7;1Hop8;2015-10-09; 
[hafs@master0l1 ~]$ hadoop fs 一 cat /Yunsheng/9.-txt 


图 4-7 查看 HDFS 文件 内 容 命 令 
要 注意 的 是 ，HDFS 中 文件 可 能 是 几 个 TB 的 。 当 拷贝 HDFS 文件 到 本 地 文件 系统 时 ， 要 保 
证 本 地 文件 系统 有 足够 的 可 用 空间 和 较 好 的 网 络 速度 。 如 果 要 在 两 个 集群 之 间 进 行 数据 复制 ， 则 
可 以 使 用 distcp 命令 。 


HDFS 配置 文件 


HDFS 是 存储 和 管理 大 数据 文件 的 文件 系统 ， 它 将 一 个 大 文件 切割 成 一 个 一 个 的 数据 块 ， 再 
将 这 些 数据 块 分 发 到 集群 上 。 我 们 可 以 在 Hadoop 安装 目录 的 conf 文件 夹 下 找到 hdfs-size.xml， 
如 图 4-8 所 示 。 它 是 HDFS 配置 文件 。 修 改 其 中 的 dfs.block.size 属性 值 就 改变 了 HDFS 的 块 大 


55 


小 ， 默 认 值 为 64MB 这么 大 的 数据 块 可 以 在 硬盘 上 连续 进行 存储 ， 这 样 就 保证 了 以 最 少 的 磁盘 
寻 址 次 数 来 进行 写 入 和 读 取 ， 从 而 最 大 化 提高 读 写 性 能 )。 新 的 块 大 小 不 会 对 HDFS 上 已 有 的 文 
件 产生 影响 ， 新 的 大 小 只 会 影响 新 传 文件 的 块 大 小 。 


[zootemaster01 conf]# pwd 

/usr/hdp/2.3.0.0-2557/hadoop/conf 

[root@master01 conf]# more hdfs-site.xml 

< 一 Fri Nov 6 11:10:42 2015 一 > 
<configuration> 


<property> 
<name>dfs.block.access.token.enable</name> 
<value>true</value> 

</property> 


<property> 
<name>dfs.blockreport.initialDelay</name> 
<value>120</value> 

</property> 


<property> 
<name>dfs.blocksize</name> 
<value>134217728</value> 
</property> 


图 4-8 hdfs-size.xml 


HDFS 通过 将 数据 块 复制 多 份 来 实现 容错 性 。 复 制 因 子 是 用 HDFS 配置 文件 的 dfs.replication 
属性 来 设置 ， 如 图 4-9 所 示 。 


<Pproperty> 
<name>dfs.replication</name> 
<value>3</value> 

</property> 


<property> 
<name>dfs.replication.max</name> 
<value>50</value> 

</property> 


图 4-9 复制 因子 


如 上 图 所 示 ， 复 制 因 子 默认 为 3 (1 个 原始 数据 块 ，2 个 副本 数据 块 )。 直 接 修改 上 述 属性 值 将 
会 改变 所 有 上 传 到 HDFS 文件 的 默认 复制 份 数 。 我 们 也 可 以 使 用 shell 命令 来 设置 复制 因子 。 通 过 
shell 命令 可 改变 一 个 文件 或 某 一 个 文件 夹 下 所 有 文件 的 复制 因子 。 比 如 如 图 4-10 所 示 的 例子 。 


[Ur 
setrep: “-R': No such file or directory 
Replication 3 set: /yunsheng/9.txt 


Waiting for /yunsheng/9.txt ... done 
[hdfsemasterol | 


图 4-10 改变 复制 因子 
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由. HpDFs API 编程 


HDFS 提供 了 FileSystem API 在 HDFS 上 创建 和 写 入 一 个 文件 ， 或 者 从 HDFS 文件 上 读 取 文 
件 内 容 。 前 面 章节 中 介绍 的 HDFS shell 命令 都 是 构建 在 HDFS FileSystem API 之 上 的 。 表 4-1 给 
出 常用 的 HDFS 相关 类 。 


表 4-1 常用 的 HDFS 相关 类 


Hadoop 类 功能 
一 个 通用 文件 系统 的 抽象 基 类 ， 可 以 被 分 布 式 文件 
org.apache.hadoop fs.FileSystem 系统 继承 。 所 有 使 用 Hadoop 文件 系统 的 代码 都 要 
使 用 到 这 个 类 
org.apache.hadoop fs.FileStatus 客户 端 可 见 的 文件 状态 信息 
org.apache.hadoop.fs. FSDataInputStream 文件 输入 流 ， 用 于 读 取 Hadoop 文件 
org.apache.hadoop.fs.FSDataOutputStream 文件 输出 流 ， 用 于 写 Hadoop 文件 
org.apache.hadoop.fs.permission.FsPermission 文件 或 者 目录 的 权限 
访问 配置 项 。 所 有 的 配置 项 的 值 ， 如 果 没 有 专门 配 
org.apache.hadoop.conf Configuration 置 ， 以 core-defaultxml 为 准 ， 否 则 以 core-sitexml 
中 的 配置 为 准 


4.3.1 读 取 HDFS 文件 内 容 


读 取 HDFS 文件 内 容 的 代码 可 以 分 为 四 个 大 步骤 : 获取 文件 系统 对 象 、 通 过 文件 系统 打开 
文件 、 将 文件 内 容 输出 ， 以 及 关闭 对 象 实例 。 


1. 获取 文件 系统 对 象 


HDFS 本 身 就 是 一 个 文件 系统 ， 所 以 要 从 HDFS 上 读 取 文件 ， 必 须 先 得 到 一 个 
org.apache.hadoop.fs.FileSystem 对 象 。FileSystem 是 一 个 抽象 类 ， 大 多 数 文件 系统 访问 和 操作 都 
可 以 通过 这 个 类 的 对 象 来 完成 。 我 们 通过 FileSystem.get() 来 得 到 一 个 HDFS 文件 系统 对 象 之 后 ， 
就 可 以 对 HDFS 进行 相关 操作 。 

在 获取 文件 系统 之 前 需要 读 取 配 置 文件 ， 然 后 才能 获取 文件 系统 。 读 取 配 置 文 件 是 通过 
Configuration 类 完成 的 。 这 个 类 有 三 个 构造 器 ， 无 参数 的 构造 器 表示 直接 加 载 默认 资源 ， 也 可 以 
指定 一 个 boolean 参数 来 关闭 加 载 默认 值 ， 或 直接 使 用 另外 一 个 Configuration 对 象 来 初始 化 。 
open() 方 法 中 指定 所 要 读 取 的 文件 路 径 信息 CURI 格式 )， 以 “hdfs:/” 开 头 。 例 子 如 下 : 

Package youngPackage.hdfs; 

import java.io.BufferedInputStream; 
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2. 通过 文件 系统 打开 文件 
打开 文件 其 实 就 是 创建 一 个 文件 输入 流 ， 之 后 就 可 以 使 用 输入 流 对 象 读 取 文件 中 的 内 容 了 。 


如 果 我 们 跟踪 open 方法 的 代码 ， 我 们 会 发 现 ， 这 个 方法 会 调用 一 个 名 叫 openInfo() 方 法 ， 
openInfo() 方 法 是 一 个 线程 安全 的 方法 ， 作 用 是 从 namenode 获取 已 打开 的 文件 信息 。 有 兴趣 的 读 
者 可 以 读 一 下 如 下 的 openInfo0 源 代码 。 
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上 面 的 方法 调用 fetchLocatedBlocksAndGetLastBlockLength() 方 法 获取 块 的 位 置信 息 。 


3. 将 文件 内 容 输出 

因为 之 前 已 经 获得 了 一 个 FSDataInputStream， 所 以 我们 可 以 调用 方法 read0) 将 
FSDataInputStream 上 的 数据 读 到 缓冲 区 中 ， 并 做 进一步 处 理 。 在 下 面 的 代码 中 ， 我 们 先 从 输入 
流 中 读 取 1024 大 小 的 数据 到 缓冲 里 面 ， 然 后 将 缓冲 里 的 数据 写 入 到 输出 流 out 里 。 一 直 循 环 ， 
直到 从 输入 流 中 读 到 缓冲 里 的 字 节 长 度 为 0， 表示 输入 流 里 的 数据 已 经 读 取 完毕 。 代 码 如 下 : 
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4. 关闭 对 象 实例 


上 面 的 第 3 步 和 第 4 步骤 ， 也 可 以 只 使 用 下 面 一 个 API 即 可 完成 相同 功能 : 
| ”| 


上 述 方法 的 tmue 参数 表示 让 系统 自动 关闭 输入 输出 流 对 象 。 


4.3.2 写 HDFS 文件 内 容 


下 面 这 个 代码 是 读 取 一 个 本 地 文件 ， 然 后 将 其 内 容 写 到 HDFS 上 。 在 创建 了 一 个 
org.apache.hadoop.fs.FileSystem 对 象 之 后 ， 就 可 以 使 用 create() 方 法 在 HDFS 上 创建 一 个 文件 (如 
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果 该 文件 存在 ， 则 系统 直接 覆盖 )。create() 方 法 返回 一 个 FSDataOutputStream 对 象 ， 然 后 就 可 以 
使 用 IOUtils.copyBytes() 方 法 写 数 据 了 。 
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由 .入 HDFs API 总 结 


HDFS 的 API 主要 在 org.apache.hadoop.fs 包 中 。 本 节 介 绍 的 类 除 标明 外 ， 默 认 都 在 该 包 下 。 


4.4.1 Configuration 类 


org.apache.hadoop.conf.Configuration 类 封装 了 一 个 客户 端 或 服务 器 的 配置 ， 用 于 存 取 配置 参 
数 。 系 统 资源 决定 了 配置 的 内 容 。 一 个 资源 以 xml 形式 的 数据 表示 ， 由 一 系列 的 “ 键 - 值 ” 对 组 
成 。 资 源 可 以 用 String 或 Path 命名 ，String 参数 指示 hadoop 在 classpath 中 查找 该 资源 ，Path 参 
数 指示 hadoop 在 本 地 文件 系统 中 查找 该 资源 。 默 认 情况 下 ，Hadoop 依次 从 classpath 中 加 载 
core-defaultxml (对 于 Hadoop 只 读 ) 和 core-site.xml (Hadoop 自己 的 配置 文件 ， 在 安装 目录 的 
conf 中 ) ， 完 成 初始 化 配置 。 


4.4.2 ”FileSystem 抽象 类 


这 是 与 Hadoop 的 文件 系统 交互 的 接口 。 可 以 被 实现 为 一 个 分 布 式 文件 系统 ， 或 者 一 个 本 地 
文件 系统 。 使 用 HDFS 都 要 获得 FileSystem 对 象 ， 可 以 像 操作 一 个 磁盘 一 样 来 操作 HDFS。 方 法 
如 下 : 

(1) 获得 FileSystem 实例 

static FileSystem get(Configuration): 从 默认 位 置 classpath 下 读 取 配置 。 

static FileSystem get(URI,Configuration): 根据 URI 查找 适合 的 配置 文件 ， 若 找 不 到 则 从 默认 
位 置 读 取 。URI 的 格式 大 致 为 hdfs://localhost/user/sam/test， 这 个 test 文件 应 该 为 xml 格式 。 

(2) 读 取 数据 
FSDataInputStream open(Path): 打开 指定 路 径 的 文件 ， 返 回答 入 流 。 默 认 4KB 的 缓冲 。 
abstract FSDataInputStream open(path,int buffersize): buffersize 为 读 取 时 的 缓冲 大 小 。 
(3) 写 入 数据 

FSDataOutputStream create(Path): 打开 指定 文件 ， 默 认 是 重 写 文件 。 会 自动 生成 所 有 父 目 
录 。 有 11 个 create 重 载 方法 ， 可 以 指定 是 否 强制 覆盖 已 有 文件 、 文 件 副本 数量 、 写 入 文件 时 的 
缓冲 大 小 、 文 件 块 大 小 以 及 文件 许可 。 

public FSDataOutputStream append(Path): 打开 已 有 的 文件 ， 在 其 末尾 写 入 数据 。 

(4) 其 他 方法 


boolean exists(path): 判断 源 文件 是 否 存在 。 
boolean mkdirs(Path): 创建 目录 。 
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abstract FileStatus getFileStatus(Path): 获取 一 文件 或 目录 的 状态 对 象 。 

abstract boolean delete(Path fboolean recursive): 删除 文件 ， 当 recursive 为 ture 时 ,一 个 非 空 目 
录 及 其 内 容 都 会 被 删除 。 如 果 是 一 个 文件 ， 则 recursive 没 用 。 

boolean deleteOnExit(Path): 标记 一 个 文件 ， 在 文件 系统 关闭 时 删除 。 


4.4.3 Path 类 


用 于 指定 文件 系统 中 的 一 个 文件 或 目录 。Path String 用 “/” 隔 开 目 录 ， 如 果 以 “/” 开 头 ， 
则 表示 为 一 个 绝对 路 径 。 一 般 路 径 的 格式 为 “hdfsVip:portdirectory/file”。 


4.4.4 FSDatalnputStream 类 


InputStream 的 派生 类 ， 这 是 文件 输入 流 ， 用 于 读 取 HDFS 文件 。 支 持 随机 访问 ， 可 以 从 流 
的 任意 位 置 读 取 数 据 。 完 全 可 以 当成 nputStream 来 进行 操作 和 封装 使 用 。 方 法 如 下 : 


int read(long position,byte[] buffer,int offset,int length): 从 position 处 读 取 length 字 节 放 入 缓冲 
buffer 的 指定 偏离 量 offset。 返 回 值 是 实际 读 到 的 字 节 数 。 

void readFully(long position,byte[] buffer) ， void readFully(long position,byte[] buffer,int 
offset,int length): readFully() 方 法 会 读 出 指定 位 置 〈 也 可 由 length 指定 长 度 ) 的 数据 到 buffer 中 ， 
或 在 只 接受 buffer 字 节 数 组 的 方法 中 读 取 “bufferlength” 个 字 节 ， 若 已 经 到 文件 末 ， 将 会 抛 出 
EOFException。 

long getPos0: 返回 当前 位 置 ， 即 距 文 件 开始 处 的 偏 移 量 . 

void seek(long desired): 定位 到 desired 偏 移 处 ， 是 一 个 高 开销 的 操作 。 


4.4.5 FSDataOutputStream 类 


OutputStream 的 派生 类 ， 这 是 文件 输出 流 ， 用 于 写 HDFS 文件 。 不 允许 定位 ， 只 允许 对 一 个 打 
开 的 文件 顺序 写 入 。 方 法 除 getPos 特有 的 方法 外 ， 继 承 了 DataOutputStream 的 write 系列 方法 。 


4.4.6 IOUtils 类 
org.apache.hadoop.io.IOUtils 类 是 与 IO 相关 的 实用 工具 类 。 里 面 的 方法 都 是 静态 : 
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copyBytes 方法 把 一 个 流 的 内 容 拷贝 到 另外 一 个 流 。close 参数 指定 了 在 拷贝 结束 后 是 否 关闭 
流 ， 默 认为 关闭 。 

static void readFully(InputStream in,byte[] buf int offint len): 读数 据 到 buf 中 。 
4.4.7 ”FileStatus 类 

用 于 向 客户 端 显示 文件 信息 ， 封 装 了 文件 系统 中 文件 和 目录 的 元 数据 ， 包 括 文件 长 度 、 块 大 
小 、 副 本 、 修 改 时 间 、 所 有 者 以 及 许可 信息 。 
4.4.8 FsShell 类 

提供 了 访问 FileSystem 的 命令 行 ， 这 是 带 有 主 函数 main 的 类 ， 可 以 直接 运行 ， 如 : 


4.4.9 ChecksumFileSystem 抽象 类 
为 每 个 源 文件 创建 一 个 校 验 文件 ， 在 客户 端 产生 和 验证 校 验 。 


4.4.10 ”其 他 HDFS API 实例 


下 面 我 们 给 出 HDFS API 的 更 多 使 用 例子 ， 主 要 说 明 一 下 在 Java 程序 中 如 何 对 HDFS 里 的 
文件 进行 创建 、 删 除 、 查 询 等 操作 。 


1. 创建 文件 


create 方法 有 多 种 重 载 ， 详 细 情 况 可 参阅 API 文档 。 
2. 创建 目录 


mkdirs 方法 有 多 种 重 载 ， 详 细 情 况 可 参阅 API 文档 。 和 上 边 的 create 方法 一 样 ， 都 会 根据 
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path 建立 相应 的 文件 或 目录 ， 如 果 父 级 目录 不 存在 ， 则 自动 创建 。 如 果 这 并 非 你 所 期 望 的 ， 需 要 
先 对 路 径 中 的 各 级 目录 进行 判断 。 


3. 检查 目录 或 文件 是 否 存在 


4. 查看 文件 系统 中 文件 元 数据 


这 个 元 数据 包括 文件 长 度 、 块 大 小 、 备 份 、 修 改 时 间 、 所 有 者 以 及 权限 信息 。FileStatus 有 一 
个 isDir() 方 法 ， 能 够 判断 是 否 为 目录 或 是 否 存在 ， 如 果 判 断 是 否 存在 使 用 exists 方法 比较 方便 。 


5. 查看 目录 列表 
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上 面 的 是 FileSystem 对 象 的 listStatus0 方 法 ， 有 多 个 重 载 ， 可 以 传 入 一 个 Path 数组 ， 同 时 查 
询 多 个 给 定 的 路 径 。 如 果 需 要 查询 子 目 录 的 路 径 ， 需 要 另 写 一 个 函数 做 递归 调用 。 


6. 删除 文件 和 目录 


使 用 FileSystem 对 象 的 delete(Path fboolean recursive) 方 法 ， 布 尔 值 设 置 为 tue 时 ， 才 会 删除 
一 个 目录 。 


7. 通配符 操作 


以 上 的 一 些 程序 是 不 适用 *、] 等 通配符 参数 的 。FileSystem 对 象 提供 有 globStatus() 方 法 可 以 
接受 含有 通配符 的 参数 。 
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上 面 的 PathFilter 是 用 来 过 滤 通 配 符 不 需要 匹配 的 内 容 。 
8. ”验证 是 否 是 文件 
9. 重 命 名 


4.4.11 ”综合 实例 


下 面 我 们 编写 一 个 稍微 复杂 的 程序 ， 在 指定 文件 目录 下 的 所 有 文件 中 ， 检 索 某 一 特定 字符 串 
所 出 现 的 行 ， 将 这 些 行 的 内 容 输出 到 本 地 文件 系统 的 输出 文件 夹 中 。 这 个 程序 假定 只 有 第 一 层 目 
录 下 的 文件 才 有 效 ， 而 且 ， 假 定 文件 都 是 文本 文件 。 为 了 防止 单个 的 输出 文件 过 大 ， 这 里 还 加 了 
一 个 文件 最 大 行 数 限制 ， 当 文件 行 数 达到 最 大 值 时 ， 便 关闭 此 文件 ， 创 建 另外 的 文件 继续 保存 。 
保存 的 结果 文件 名 为 1，2，3，4，…， 以 此 类 推 。 因 为 这 个 程序 可 以 用 来 分 析 MapReduce 的 结 
果 ， 所 以 称 为 ResultFilter。 程 序 ResultFilter 接收 4 个 命令 行 输入 参数 ， 参 数 含义 如 下 : 

@ ”<dfs path>: HDFS 上 的 路 径 

@ ”<local path>: 本 地 路 径 

@ ”<match str>: 待 查找 的 字符 串 

@ ”<single file lines>: 结果 的 每 个 文件 的 行 数 


程序 ResultFilter 如 下 : 
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上 述 程序 的 逻辑 很 简单 ， 获 取 该 目录 下 所 有 文件 的 信息 ， 对 每 一 个 文件 ， 打 开 文件 、 循 环 读 
取 数 据 、 写 入 目标 位 置 ， 然 后 关闭 文件 ， 最 后 关闭 输出 文件 。 
运行 命令 如 下 : 


4.5 HDFS 文件 格式 


本 节 介 绍 Hadoop 目前 已 有 的 几 种 文件 格式 ， 分 析 其 特点 、 开 销 及 使 用 场景 。 希 望 加 深 读 者 
对 Hadoop 文件 格式 及 其 性 能 影响 因素 的 理解 。 
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4.5.1 _ SequenceFile 

SequenceFile 是 Hadoop API 提供 的 一 种 二 进 制 文件 ， 它 将 数据 以 <key,value> 的 形式 序列 化 
到 文件 中 ， 如 图 4-11 所 示 。 这 种 二 进 制 文件 在 内 部 使 用 Hadoop 标准 的 Writable 接口 实现 序列 
化 和 反 序 列 化 。 它 与 Hadoop API 中 的 MapFile 是 互相 兼容 的 。 


Header Record Sync Record Record Record Sync Record 


Record Key 


length length 


Record Key Compressed 
length length value 


4 4 


图 4-11 Sequencefile 文件 结构 


4.5.2 ”TextFile (文本 格式 ) 


上 面 提 到 的 SequenceFile 是 二 进 制 格式 。 文 本 格式 的 数据 也 是 Hadoop 中 经 常 碰 到 的 。 如 文 
本 文件 、XML 和 JSON。 文 本 格式 除了 会 占用 更 多 磁盘 资源 外 ， 对 它 的 解析 开销 一 般 也 会 比 二 
进 制 格式 高 几 十 倍 以 上 ， 尤 其 是 XML 和 JSON， 它 们 的 解析 开销 比 文本 文件 还 要 大 ， 因 此 不 建 
议 在 生产 系统 中 使 用 这 些 格式 进行 储存 。 如 果 需 要 输出 这 些 格式 ， 可 在 客户 端 做 相应 的 转换 操 
作 。 文 本 格式 经 常会 用 于 日 志 收 集 、 数 据 库 导 入 等 。 另 外 ， 文 本 格式 的 一 个 缺点 是 它 不 具备 类 型 
和 模式 ， 比 如 销售 额 这 类 数值 数据 或 者 日 期 时 间 类 型 的 数据 ， 如 果 使 用 文本 格式 保存 ， 由 于 它们 
本 身 的 字符 串 类 型 的 长 短 不 一 ， 或 者 含有 负数 ， 有 时 需要 将 它们 预 处 理 成 含有 模式 的 二 进 制 格 
式 ， 这 又 导致 了 不 必要 的 预 处 理 步骤 的 开销 和 储存 资源 的 浪费 。 


4.5.3 RCPFile 

TextFile 和 SequenceFile 的 存储 格式 都 是 基于 行 存储 的 ，RCFile (Record Columnar File) 是 
基于 行列 混合 的 思想 。 如 图 4-12 所 示 ， 先 按 行 把 数据 划分 成 N 个 row group， 在 row group 中 对 
每 个 列 分 别 进行 存储 。 当 查询 过 程 中 ， 针 对 它 并 不 关心 的 列 时 ， 它 会 在 IO 上 跳 过 这 些 列 。 该 结 
构 强 调 的 是 : 
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@@ ”RCFile 存储 的 表 是 水 平 划 分 的 ， 分 为 多 个 行 组， 每 个 行 组 再 被 垂直 划分 ， 以 便 每 列 单 
独 存储 ; 

@ RCFile 在 每 个 行 组 中 利用 一 个 列 维度 的 数据 压缩 ， 并 提供 一 种 Lazy 解压 
(decompression ) 技术 。 这 在 查询 执行 时 可 避免 不 必要 的 列 解压 ; 

@ RCFile 支持 弹性 的 行 组 大 小 ， 行 组 大 小 需要 权衡 数据 压缩 性 能 和 查询 性 能 两 方面 。 


RCFile 
Relation 


Row Group 


101 111 121 131 | Block |- 
102 112 122 132 ey 
103 113 123 133 | > 
101. 102, 103, 104. 105 
[2 13, 114, 115 | 


4-12 RCFile 文 件 结构 


RCFile 存储 结构 遵循 的 是 “ 先 水 平 划分 ， 再 垂直 划分 ”的 设计 理念 ， 这 个 想法 来 源 于 
PAX。 它 结合 了 行 存储 和 列 存储 的 优点 ， 首先 ，RCFile 保证 同一 行 的 数据 位 于 同一 节点 ， 因 此 
元 组 重 构 的 开销 很 低 ， 其 次 ， 像 列 存储 一 样 ，RCFile 能 够 利用 列 维度 的 数据 压缩 ， 并 且 能 跳 过 
不 必要 的 列 读 取 。 

在 图 4-12 中 ，RCFile 基于 HDFS 架构 ， 表 格 占用 多 个 HDFS 块 。 每 个 HDFS 块 中 ，RCFile 
以 行 组 为 基本 单位 来 组 织 记录 。 也 就 是 说 ， 存 储 在 一 个 HDFS 块 中 的 所 有 记录 被 划分 为 多 个 行 
组 。 对 于 一 张 表 ， 所 有 行 组 大 小 都 相同 。 一 个 HDFS 块 会 有 一 个 或 多 个 行 组 。 一 个 行 组 包括 三 
个 部 分 。 


@ 第 一 部 分 是 行 组 头 部 的 同步 标识 ， 主 要 用 于 分 隔 HDFS 块 中 的 两 个 连续 行 组 ; 

@ 第 二 部 分 是 行 组 的 元 数据 头 部 ， 用 于 存储 行 组 单元 的 信息 ， 包 括 行 组 中 的 记录 数 、 每 
个 列 的 字 节 数 、 列 中 每 个 域 的 字 节 数 ; 

@ 第 三 部 分 是 表格 数据 段 ， 即 实际 的 列 存储 数据 。 在 该 部 分 中 ， 同 一 列 的 所 有 域 顺序 存 
储 。 从 图 上 可 以 看 出 ， 首 先 存储 了 列 A 的 所 有 域 ， 然 后 存储 列 B 的 所 有 域 等 。 


RCFile 的 每 个 行 组 中 ， 元 数据 头 部 和 表格 数据 段 分 别 进行 压缩 。 对 于 所 有 元 数据 头 部 ， 
RCFile 使 用 RLE (Run Length Encoding) 算法 来 压缩 数据 。 由 于 同一 列 中 所 有 域 的 长 度 值 都 顺 
序 存储 在 该 部 分 ，RLE 算法 能 够 找到 重复 值 的 长 序列 ， 尤 其 对 于 固定 的 域 长 度 。 表 格 数据 段 不 
会 作为 整个 单元 来 压缩 ; 相反 每 个 列 被 独立 压缩 ， 使 用 Gzip 压缩 算法 。RCFile 使 用 Gzip 压缩 
算法 是 为 了 获得 较 好 的 压缩 比 ， 而 不 使 用 RLE 算法 的 原因 在 于 此 时 列 数据 非 排 序 。 此 外 ， 由 于 
Lazy 压缩 策略 ， 当 处 理 一 个 行 组 时 ，RCFile 不 需要 解压 所 有 列 。 因 此 ， 相 对 较 高 的 Gzip 解压 
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开销 可 以 减少 。 

RCFile 不 支持 任意 方式 的 数据 写 操作 ， 仅 提供 一 种 追加 接口 ， 这 是 因为 底层 的 HDFS 当前 
仅仅 支持 数据 追加 写 文件 尾部 。RCFile 提供 两 个 参数 来 控制 在 写 到 磁盘 之 前 ， 内 存 中 缓存 多 少 
个 记录 。 一 个 参数 是 记录 数 的 限制 ， 另 一 个 是 内 存 缓存 的 大 小 限制 。 

在 MapReduce 框架 中 ，mapper 将 顺序 处 理 HDFS 块 中 的 每 个 行 组 。 当 处 理 一 个 行 组 时 ， 
RCFile 无 须 全 部 读 取 行 组 的 全 部 内 容 到 内 存 。 它 仅仅 读 元 数据 头 部 和 给 定 查询 需要 的 列 。 因 
此 ， 它 可 以 跳 过 不 必要 的 列 以 获得 列 存储 的 IO 优势 。 例 如 ， 表 tbl(cl, c2, c3, c4) 有 4 个 列 ， 做 一 
次 查询 “SELECT cl FROM tbl WHERE c4=1”， 对 每 个 行 组 ， RCFile 仅仅 读 取 cl 和 c4 列 的 内 
容 。 在 元 数据 头 部 和 需要 的 列 数据 加 载 到 内 存 中 后 ， 它 们 需要 解压 。 元 数据 头 部 总 会 解压 并 在 内 
存 中 存放 ， 直 到 RCFile 处 理 下 一 个 行 组 。 然 而 ，RCFile 不 会 解压 所 有 加 载 的 列 ， 相 反 ， 它 使 用 
一 种 Lazy 解压 技术 。Lazy 解压 意味 着 列 将 不 会 在 内 存 解压 ， 直 到 RCFile 决定 列 中 数据 真正 对 
查询 执行 有 用 。 由 于 查询 使 用 各 种 WHERE 条 件 ，Lazy 解压 非常 有 用 。 如 果 一 个 WHERE 条 件 
不 能 被 行 组 中 的 所 有 记录 满足 ， 那 么 RCFile 将 不 会 解压 WHERE 条 件 中 不 满足 的 列 。 例 如 ， 在 
上 述 查 询 中 ， 所 有 行 组 中 的 列 c4 都 解压 了 。 然 而 ， 对 于 一 个 行 组 ， 如 果 列 c4 中 没有 值 为 1 的 
域 ， 那 么 就 无 须 解压 列 cl 。 

IO 性 能 是 RCFile 关注 的 重点 ， 因 此 RCFile 需要 行 组 够 大 并 且 大 小 可 变 。 行 组 够 大 的 话 ， 
数据 压缩 效率 会 比 行 组 小 时 更 有 效 。 尽 管 行 组 变 大 有 助 于 减少 表格 的 存储 规模 ， 但 是 可 能 会 损害 
数据 的 读 性 能 ， 因 为 这 样 减少 了 Lazy 解压 带 来 的 性 能 提升 。 而 且 行 组 变 大 会 占用 更 多 的 内 存 ， 
这 会 影响 并 发 执行 的 其 他 MapReduce 作业 。 考 虑 到 存储 空间 和 查询 效率 两 个 方面 ， 默 认 的 行 组 
大 小 为 4MB， 当 然 也 允许 用 户 自 行 选 择 参数 进行 配置 。 

RCFile 存储 结构 广泛 应 用 于 Hive 中 。 首 先 ，RCFile 具备 相当 于 行 存储 的 数据 加 载 速度 和 负 
载 适应 能 力 ， 其 次 ，RCFile 的 读 优 化 可 以 在 扫描 表格 时 避免 不 必要 的 列 读 取 ， 它 比 其 他 结构 拥 
有 更 好 的 性 能 ， 再 次 ，RCFile 使 用 列 维度 的 压缩 ， 因 此 能 够 有 效 提升 存储 空间 利用 率 。 为 了 提 
高 存储 空间 利用 率 ，Facebook 各 产品 线 应 用 产生 的 数据 从 2010 年 起 均 采 用 RCFile 结构 存储 ， 
按 行 存储 (SequenceFile/TextFile〉 结 构 保存 的 数据 集 也 转 存 为 RCFile 格式 。 此 外 ， 在 Pig 数据 
分 析 系 统 中 也 集成 了 RCFile。 


4.5.4 Avro 

Avro 是 一 种 用 于 支持 数据 密集 型 的 二 进 制 文件 格式 。 它 的 文件 格式 更 为 紧凑 ， 若 要 读 取 大 
量 数据 时 ，Avro 能 够 提供 更 好 的 序列 化 和 反 序 列 化 性 能 。 并 且 Avro 数据 文件 天 生 是 带 Schema 
定义 的 ， 所 以 它 不 需要 开发 者 在 API 级 别 实 现 自己 的 Writable 对 象 。 多 个 Hadoop 子 项 目 都 支 
持 Avro 数据 格式 ， 如 Pig 、Hive、Flume、Sqoop 和 Hcatalog。 
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从 历史 上 看 ， 数 据 处 理 主要 是 通过 数据 库 技术 来 实现 的 。 大 多 数 数据 都 有 定义 良好 的 结构 ， 
数据 集 不 大 ， 可 以 通过 关系 数据 库存 侍 和 查询 。 然 而 ， 在 大 数据 的 世界 里 ， 基 于 表 的 传统 的 关系 
型 数据 库 (RDBMS， 比 如 : MySQL、Oracle、DB2 UDB、SQL Server 等 ) 并 不 适合 ， 这 是 因为 
单个 表 在 数据 量变 得 巨大 时 就 显得 力不从心 ， 而 且 RDBMS 在 横向 扩展 上 非常 弱 。HBase 是 
Apache Hadoop 的 数据 库 ， 是 一 个 非 关系 型 的 NoSQL 数据 库 。 它 能 够 对 大 型 数据 提供 随机 、 实 
时 的 读 写 访问 ，HBase 就 是 一 个 能 很 好 地 存储 并 处 理 海量 数据 的 数据 库 。Facebook 的 Messaging 
平台 就 是 基于 HBase 开发 的 。 在 本 章 ， 我 们 首先 解释 一 下 什么 是 NoSQL， 然 后 重点 介绍 HBase 
数据 库 。 


NoSQL 


NoSQL 是 Not only SQL 的 缩写 ， 泛 指 非 关系 型 数据 库 。 与 RDBMS 相 比 ，NoSQL 不 使 用 
SQL 作为 查询 语言 ， 其 表 没 有 固定 的 结构 ， 具 有 水 平 扩展 的 特性 ， 非 常 容易 支撑 TB 乃至 PB 的 
数据 量 。 下 面 列 出 了 NoSQL 的 几 个 优点 : 


@ 易 扩 展 


NoSQL 数据 库 种 类 繁多 ， 但 是 一 个 共同 的 特点 都 是 去 掉 关 系数 据 库 的 关系 型 特性 。 数 据 之 
间 无 关系 ， 这 样 就 非常 容易 扩展 。 也 无 形 之 中 ， 在 架构 的 层面 上 给 用 户 带 来 了 可 扩展 的 能 


@ ”大 数据 量 ， 高 性 能 


NoSQL ie 都 具有 非常 高 的 读 写 性 能 ， 尤 其 在 大 数据 量 下 表现 优秀 。 这 得 益 于 它 的 无 关 
系 性 ， 数 据 库 的 结构 简单 。 一 般 MySQL 使 用 Query Cache， 每 次 表 一 更 新 Cache 就 失效 ， 是 一 
种 大 粒度 的 Cache。 而 NoSQL 的 Cache 是 记录 级 的 ， 是 一 种 细 粒 度 的 Cache， 所 以 NoSQL 在 这 
个 层面 上 来 说 性 能 就 高 很 多 了 。 


大 数据 技术 入 门 
@ ”灵活 的 数据 模型 


NoSQL 无 须 事先 为 要 存储 的 数据 建立 字段 ， 随 时 可 以 存储 自 定义 的 数据 格式 。 而 在 关系 数 
据 库 里 ， 增 删 字段 是 一 件 非常 麻烦 的 事情 。 


@ 高 可 用 


NoSQL 在 不 太 影响 性 能 的 情况 下 ， 就 可 以 方便 地 实现 高 可 用 的 架构 。 比 如 : HBase 模型 就 
是 通过 复制 模型 也 能 实现 高 可 用 。 

对 于 数据 库 产品 而 言 ， 底 层 存储 结构 直接 决定 了 数据 库 的 特性 和 使 用 场景 。RDBMS 使 用 B 
树 和 B+ 树 作为 存储 结构 ， 而 NoSQL 之 一 的 HBase 的 底层 存储 结构 使 用 LSM 树 作为 存储 结构 。 
B+ 树 的 特点 是 能 够 保持 数据 稳定 有 序 ， 通 过 最 大 化 每 个 内 部 节点 中 的 子 节点 的 数量 来 减少 树 的 
高 度 ， 从 而 增加 效率 。LSM 树 通过 使 用 某 种 算法 对 索引 变更 进行 延迟 及 批量 处 理 ， 并 通过 一 种 
类 似 归并 排序 的 方式 ， 联 合 使 用 一 个 基于 内 存 的 组 件 和 一 个 或 多 个 磁盘 组 件 。 在 处 理 过 程 中 ， 所 
有 的 索引 值 对 于 所 有 的 查询 来 说 ， 都 可 以 通过 内 存 组 件 或 者 某 个 磁盘 组 件 进 行 访问 。 与 B+ 树 相 
比 ， 这 就 大 大 减少 了 磁盘 磁 臂 的 移动 次 数 ， 提 高 了 读 写 性 能 。 对 于 磁盘 而 言 ，LSM 树 属于 传输 
型 ， 而 RDBMS 是 属于 寻 道 型 。 在 大 数据 的 情况 下 ， 计 算 瓶 颈 主要 在 磁极 的 数据 传输 上 ， 这 也 
是 为 什么 LSM 被 用 于 大 数据 场景 。 

NoSQL 数据 库 有 多 种 ， 分 为 行 存储 和 列 存储 。 不 同 的 NoSQL 数据 库 适 用 不 同 的 场景 ， 
部 分 在 查询 数据 〈select) 时 性 能 更 好 ， 有 些 是 在 插入 或 者 更 新 上 性 能 更 好 。 有 具体 的 数据 库 选 型 
依赖 于 你 的 具体 需求 〈 例 如 ， 你 的 应 用 程序 的 数据 库 读 写 比 )。 压 缩 率 、 缓 冲 池 、 超 时 的 大 小 和 
缓存 ， 对 于 不 同 的 NoSQL 数据 库 来 说 配置 都 是 不 同 的 ， 同 时 对 数据 库 性 能 的 影响 也 是 不 一 样 
的 。 并 非 所 有 的 NoSQL 数据 库 都 内 置 了 支持 连接 、 排 序 、 汇 总 、 过 滤器 、 索 引 等 特性 。 如 果 有 
需要 ， 还 是 建议 使 用 具有 这 些 内 置 功能 的 数据 库 。NoSQL 数据 库 内 置 了 压缩 、 编 解码 器 和 数据 
移植 工具 。 


与 .2 HBase 管 理 


HBase 是 一 个 开源 、 分 布 式 的 、 高 性 能 的 、 可 扩展 的 、 面 向 列 的 NoSQL 数据 库 。 它 是 
Apache Hadoop 生态 系统 中 的 重要 一 员 ， 主 要 用 于 海量 结构 化 数据 存储 。 当 你 需要 对 大 数据 进行 
实时 的 、 随 机 的 存储 和 访问 ， 你 就 可 以 使 用 HBase。HBase 源 于 Google 的 一 篇 论文 《bigtable: 
一 个 结构 化 数据 的 分 布 式 存储 系统 》， HBase 是 Google Bigtable 的 开源 实现 ， 它 利用 Hadoop 
HDFS 作为 其 文件 存储 系统 ， 利 用 Hadoop MapReduce 来 处 理 HBase 中 的 海量 数据 ， 利 用 
Zookeeper 作为 协同 服务 。HBase 使 用 Key-Value 存储 ，HDFS 为 HBase 提供 了 高 可 靠 的 底层 存 
储 支持 ， 而 MapReduce 为 HBase 提供 了 高 性 能 的 计算 能 力 。HBase 弥补 了 Hadoop 只 能 离线 批 
处 理 的 不 足 ， 为 Hadoop 提供 了 实时 处 理 数据 的 能 力 。HBase 的 整个 项 目 使 用 Java 语言 实现 。 
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HBase 是 一 个 在 HDFS 上 开发 的 面向 列 的 分 布 式 数据 库 。 从 逻辑 上 讲 ，HBase 将 数据 按照 
表 、 行 和 列 进行 存储 。 与 HDFS 一 样 ，HBase 主要 依靠 横向 扩展 ， 通 过 不 断 增加 廉价 的 商用 服务 
器 ， 来 增加 计算 和 存储 能 力 。HBase 表 的 特点 如 下 : 


@ 容量 大 : 一 个 表 可 以 有 数 十 亿 行 ， 上 百 万 列 。 当 关系 型 数据 库 (如 : ORACLE ) 的 单 
个 表 的 记录 在 亿 级 时 ， 则 查询 和 写 入 的 性 能 都 会 呈现 指数 级 下 降 ， 而 HBase 对 于 单 表 
存储 百 亿 或 更 多 的 数据 都 没有 性 能 问题 。 

@ 无 固定 模式 ( 表 结构 不 国定 ) : 每 行 都 有 一 个 可 排序 的 主键 和 任意 多 的 列 ， 列 可 以 根 
据 需 要 动态 地 增加 ， 同 一 张 表 中 不 同 的 行 可 以 有 截然 不 同 的 列 。 

@ 面向 列 : 面向 列 ( 往 ) 的 存储 和 权限 控制 ， 支 持 列 ( 徐 ) 独立 检索 。RDBMS 是 按 行 存 
储 的 ， 在 数据 量 大 的 时 候 ，RDBMS 依赖 索引 来 提高 查询 速度 ， 而 建立 索引 和 更 新 索引 
需要 大 量 的 时 间 和 空间 。 对 于 HBase 而 言 ， 因 为 数据 是 按照 列 存储 ， 每 一 列 都 单独 存 
放 ， 所 以 数据 即 索 引 ， 在 查询 时 可 以 只 访问 所 涉及 的 列 的 数据 ， 大 大 降低 了 系统 的 
IO。. 

@ 稀 中 性 : 空 (null) 列 并 不 占用 存储 空间 ， 表 可 以 设计 的 非常 稀 中 。 

@ ”数据 多 版 本 : 每 个 单元 中 的 数据 可 以 有 多 个 版 本 ， 默 认 情况 下 版 本 号 自动 分 配 ， 是 单 
元 格 插入 时 的 时 间 玲 。 

@ ”数据 类 型 单一 :HBase 中 的 数据 都 是 字符 串 ， 没 有 类 型 。 

@ ”高 性 能 :针对 Rowkey 的 查询 能 够 达到 毫秒 级 别 。 


5.2.1 HBase 表 结 构 


类 似 RDBMS，HBase 也 以 表 的 形式 存储 数据 ， 如 图 5-1 所 示 。 表 也 由 行 和 列 组 成 。 但 是 ， 
与 RDBMS 不 同 的 是 ，HBase 表 的 每 一 行 都 有 唯一 的 行 键 (row key)， 原 来 RDBMS 的 列 被 划分 
为 若干 个 列 徐 (column family)， 每 一 行 有 相同 的 列 簇 ， 列 艇 将 一 列 或 多 列 组 合 在 一 起 ，HBase 
的 列 必须 属于 某 一 个 列 徐 。 相 同 列 簇 可 以 有 不 同 的 列 ， 每 个 列 可 以 有 多 个 版 本 的 数据 ， 指 定 版 本 
获取 数据 。HBase 允许 用 户 存储 大 量 的 信息 到 一 个 表 中 ， 而 RDBMS 的 大 量 信息 则 可 能 被 分 到 多 
个 表 上 存储 。 


图 5-1 HBase 表 结 构 
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在 表 5-1 中 ，keyl1、key2 是 两 条 记录 的 唯一 的 行 键 (row key) 值 。 列 徐 1、 列 徐 2 和 列 徐 3 
是 三 个 列 簇 ， 每 个 列 簇 下 又 包括 几 列 。 比 如 列 徐 1 包括 两 列 ， 名 字 是 列 1 和 列 2，“tl:abc” 和 
“t2:gdxdf” 是 由 keyl 和 “ 列 徐 1- 列 1” 唯 一 确定 的 一 个 单元 cell。 这 个 cell 中 有 两 个 数据 : abc 
和 gdxdf。 两 个 值 的 时 间 戳 不 一 样 ， 分 别 是 tL 和 也 ,HBase 会 返回 最 新 时 间 的 值 给 请 求 者 。 


表 5-1 HBase 表 结构 示例 
行 键 列 簇 1 列 灸 2 列 乱 3 


和 列 1 列 2 列 ! ” 列 2 列 3 列 1 


tl:abc 
0: | 


HBase 中 的 几 个 术语 的 具体 含义 如 下 : 


(1) 行 键 (row key) 


row key 是 用 来 唯一 确定 一 行 的 标识 ， 不 同 的 行 键 代 表 不 同 的 行 ， 它 是 检索 记录 的 主键 ， 必 
须 在 设计 上 保证 其 唯一 性 。 访 问 HBase table 中 的 行 ， 只 有 三 种 方式 : 

@ ”通过 单个 row key 访问 

@ ”通过 row key 的 range 

@ 全 表 扫 描 


行 键 (row key) 可 以 是 任意 字符 串 ， 它 的 最 大 长 度 是 64KB， 实 际 应 用 中 长 度 一 般 为 
10~100 字 节 。 在 HBase 内 部 ，row key 被 保存 为 字 节 数 组 。 存 储 时 ， 数 据 按照 row key 的 字典 序 
(byte order) 排序 存储 。 设 计 key 时 ， 要 充分 考虑 排序 存储 这 个 特性 ， 将 经 常 一 起 读 取 的 行 存储 
放 到 一 起 (位 置 相 关 性 )。 比 如 : 字典 序 对 int 排序 的 结果 是 : 
1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91。 如 果 要 保持 整形 的 自然 序 ， 行 键 必须 用 0 作 
左 填充 。 另 外 ， 行 的 一 次 读 写 是 原子 操作 ， 不 论 一 次 读 写 多 少 列 。 

为 了 高 效 检索 数据 ， 我 们 应 该 仔细 设计 row key 以 获得 最 高 的 查询 性 能 。row key 应 该 尽量 
均匀 分 布 。 因 为 HBase 的 行 键 是 有 序 排列 的 ， 所 以 ， 我 们 应 该 避免 单调 递增 行 键 。 和 否则 ， 写 入 
数据 时 ， 就 会 集中 对 某 一 个 Region 进行 写 入 操作 ， 这 时 候 所 有 的 负载 都 在 同一 台 机 器 上 。 这 对 
全 表 扫 描 的 读 操作 也 是 如 此 。 对 于 行 键 的 长 度 ， 既 要 满足 语义 ， 又 要 尽量 缩短 以 减少 存储 空间 。 


(2) 列 簇 (column family) 


HBase 表 中 的 每 个 列 ， 都 归属 于 某 个 列 徐 。 列 簇 是 表 的 schema 的 一 部 分 〈 而 列 不 是 )， 必 须 
在 使 用 表 之 前 定义 。 每 个 表 必 须 至 少 要 有 一 个 列 徐 。 列 名 都 以 列 入 作为 前 经 ， 并 用 冒号 分 阳 开 。 
例如 courses:history,courses:math 都 属于 courses 这 个 列 簇 。 访 问 控制、 磁盘 和 内 存 的 使 用 统计 都 
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是 在 列 徐 上 进行 的 ， 所 以 应 该 将 经 常 一 起 查询 的 列 放 在 一 个 列 簇 中 ， 以 提高 查询 的 效率 。 比 如 ， 
我 们 有 一 个 会 员 表 ， 这 个 表 上 包含 了 两 部 分 信息 : 一 部 分 是 会 员 的 基本 信息 (地 址 ， 年 龄 ， 名 
字 ， 电 话 ， 住 址 等 )， 这 些 信息 基本 不 改动 ， 另外 一 部 分 是 会 员 的 行为 信息 〈 这 个 数据 的 读 写 频 
率 高 )。 这 样 的 话 ， 我 们 可 以 把 这 两 部 分 信息 通过 两 个 列 簇 分 开 。 

新 的 列 簇 可 以 随后 按 需 动态 加 入 修改 列 簇 前 要 先 停 用 表 )。 但 是 ， 我 们 不 推荐 有 太 多 的 列 
艇 ， 因 为 跨 列 簇 的 访问 是 非常 低 效 的 。 还 有 ， 列 簇 的 名 字 尽 量 短小 ， 这 样 可 以 节省 存储 空间 ， 提 
高 查询 的 速度 。 在 实际 应 用 中 ， 列 簇 上 的 控制 权限 能 帮助 我 们 管理 不 同类 型 的 应 用 : 我 们 允许 一 
些 应 用 可 以 添加 新 的 基本 数据 ， 一 些 应 用 则 只 人 允许 浏览 数据 〈 甚 至 可 能 因为 隐私 的 原因 ， 不 能 浏 
览 所 有 数据 )。 

与 RDBMS 不 同 的 是 ，HBase 的 表 没 有 列 定义 ， 没 有 数据 类 型 ， 这 也 是 HBase 被 称 为 无 模 
式 数据 库 的 原因 。 


(3) 单元 (cell) 


HBase 中 通过 行 和 列 所 确定 的 一 个 存储 单元 ， 称 为 cell， 就 是 传统 关系 型 数据 库 上 的 列 值 。 
它 是 版 本 化 的 ， 它 是 由 {row key, column( =<family> + <label>), version} 唯一 确定 的 单元 。HBase 
没有 数据 类 型 ，cell 中 的 数据 全 部 是 字 节 数组 ， 以 二 进 制 形式 存储 。 在 默认 情况 下 ，HBase 的 每 
个 单元 只 维护 三 个 时 间 版 本 。 如 果 需 要 不 同 的 版 本 数 ， 可 以 在 创建 表 时 指定 。 单 元 还 有 生存 时 间 
(Time To Live，TTL)， 如 果 过 期 ， 则 系统 会 将 其 删除 ， 也 可 以 在 建 表 时 设置 TTL。 


(4) 时 间 戳 (timestamp) 


每 个 cell 都 保存 着 同一 份 数据 的 多 个 版 本 。 版 本 通过 时 间 惟 来 索引 。 时 间 戳 的 类 型 是 64 位 
整 型 。 时 间 戳 可 以 由 HBase 在 数据 写 入 时 自动 赋值 ， 此 时 时 间 惟 是 精确 到 毫秒 的 当前 系统 时 
间 。 时 间 戳 也 可 以 由 客户 显 式 赋值 。 如 果 应 用 程序 要 避免 数据 版 本 冲突 ， 就 必须 自己 生成 具有 唯 
一 性 的 时 间 戳 。 每 个 cell 中 ， 不 同 版 本 的 数据 按照 时 间 倒 序 排序 ， 即 最 新 的 数据 排 在 最 前 面 。 为 
了 避免 数据 存在 过 多 版 本 造成 的 管理 负担 ， 包 括 存储 和 索引 ，HBase 提供 了 两 种 数据 版 本 回收 方 
式 。 一 是 保存 数据 的 最 后 n 个 版 本 ， 二 是 保存 最 近 一 段 时 间 内 的 版 本 〈 比 如 最 近 7 天 )。 用 户 可 
以 针对 每 个 列 簇 进行 设置 。 

如 图 5-2 所 示 ， 随 着 一 个 表 的 记录 增多 而 不 断 变 大 ， 会 自动 分 裂 成 多 份 ， 成 为 Regions 〈 关 
于 Region 的 更 多 信息 ， 请 参见 下 节 内 容 )。 一 个 region 由 [startkey，endkey] 表 示 ， 不 同 region 会 
被 Master 分 配给 相应 的 RegionServer 进行 管理 。 
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带 有 分 裂 的 表 分 配给 
regionserver 
Keys: [0-2) . 
Keys: [2-4) < 
Keys: [4-7) (=) 
[20 
Keys: [8-0) 
5-2 表 分 裂 


最 后 ， 我 们 在 表 5-2 中 总 结 了 HBase 与 RDBMS 的 区 别 。 


表 52 HBase 与 RDBMS 的 区 别 


HBase R 


属性 DBMS 
数据 类 型 只 有 字符 串 丰富 的 数据 类 型 
数据 操作 简单 的 增删 改 查 ， 本 身 不 支持 连接 各 种 各 样 的 操作 


存储 模式 基于 列 式 存储 基于 表格 结构 和 行 式 存储 


5.2.2 ”HBase 系统 架构 
如 图 5-3 所 示 ，HBase 包含 了 客户 端 应 用 client、 主 节点 HMaster 和 Region 节点 


HRegionServer。 


客户 端 应 用 Zookeeper HMaster 


HRegionServer 
HRegion 


| el 
pe 


HRegionServer 
HRegion 


Store 


5-3 HBase 架构 


HBase Client 使 用 HBase 的 RPC 机 制 与 HMaster 和 HRegionServer 进行 通信 ， 对 于 管理 类 操 
作 ，Client 与 HMaster 进行 RPC; 对 于 数据 读 写 类 操作 ，Client 与 HRegionServer 进行 RPC。 
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HMaster 在 功能 上 主要 负责 Table 和 Region 的 管理 工作 : 


@ ”管理 用 户 对 Table 的 增 、 删 、 改 、 查 操作 ; 

@ ”管理 HRegionServer 的 负载 均衡 ， 调 整 Region 分 布 ; 

@ 在 Region Split 后 ， 负 责 新 Region 的 分 配 ; 

@ 在 HRegionServer 停 机 后 ， 负 责 失 效 HRegionServer 上 的 Regions 迁移 。 


HMaster 没有 单 点 问题 ，HBase 中 可 以 启动 多 个 HMaster， 通 过 Zookeeper 的 Master Election 
机 制 保证 总 有 一 个 Master 运行 。HRegionServer 主要 负责 响应 用 户 1/O 请 求 ， 向 HDFS 文件 系统 
中 读 写 数据 ， 它 是 HBase 中 最 核心 的 模块 。 在 HDFS 中 可 以 看 到 每 个 表 的 表 名 作为 独立 的 目录 
结构 。 如 图 5-3 所 示 ，HRegionServer 内 部 管理 了 一 系列 HRegion 对 象 ， 每 个 HRegion 对 应 了 
Table 中 的 一 个 Region ，HRegion 中 由 多 个 HStore 组 成 。 每 个 HStore 对 应 了 Table 中 的 一 个 
Column Family 的 存储 ， 可 以 看 出 每 个 Column Family 其 实 就 是 一 个 集中 的 存储 单元 ， 因 此 最 好 
将 具备 共同 IO 特性 的 列 放 在 一 个 Column Family 中 ， 这 样 最 高 效 。HRegionServer 也 会 把 自己 
注册 到 Zookeeper 中 ， 使 得 HMaster 可 以 随时 感知 到 各 个 HRegionServer 的 健康 状态 。 

HStore 存储 是 HBase 存储 的 核心 ， 由 两 部 分 组 成 : 一 部 分 是 MemStore ， 一 部 分 是 
StoreFiles。 MemStore 是 Sorted Memory Buffer， 用 户 写 入 的 数据 首先 会 放 入 MemStore， 当 
MemStore 满 了 以 后 会 Flush 成 一 个 StoreFile〈 底 层 实现 是 HFile)， 当 StoreFile 文件 数量 增长 到 

- 定 阔 值 ， 会 触发 Compact 合并 操作 ， 将 多 个 StoreFiles 合并 成 一 个 StoreFile， 合 并 过 程 中 会 进 
行 版 本 合并 和 数据 删除 。 从 中 可 以 看 出 ，HBase 其 实 只 有 增加 数据 ， 所 有 的 更 新 和 删除 操作 都 是 
在 后 续 的 compact 过 程 中 进行 的 ， 这 使 得 用 户 的 写 操作 只 要 进入 内 存 中 就 可 以 立即 返回 ， 保 证 了 
HBase IO 的 高 性 能 。 当 StoreFiles Compact 后 ， 会 逐步 形成 越 来 越 大 的 StoreFile 。 当 单个 
StoreFile 大 小 超过 一 定 阔 值 后 ， 会 触发 Split 操作 ， 同 时 把 当前 Region Split 成 两 个 Region， 父 
Region 会 下 线 ， 新 Split 出 的 两 个 孩子 Region 会 被 HMaster 分 配 到 相应 的 HRegionServer 上 ， 使 
得 原先 一 个 Region 的 压力 得 以 分 流 到 两 个 Region 上 。 

在 理解 了 上 述 HStore 的 基本 原理 后 ， 还 必须 了 解 一 下 HLog 的 功能 ， 因 为 上 述 的 HStore 在 
系统 正常 工作 的 前 提 下 是 没有 问题 的 ， 但 是 在 分 布 式 系统 环境 中 ， 无 法 避免 系统 出 错 或 者 宕 机 ， 
因此 一 旦 HRegionServer 意外 退出 ，MemStore 中 的 内 存 数据 将 会 丢失 ， 这 就 需要 引入 HLog 
了 。 每 个 HRegionServer 中 都 有 一 个 HLog 对 象 ，HLog 是 一 个 实现 Write Ahead Log 的 类 ， 在 每 
次 用 户 操作 写 入 MemStore 的 同时 ， 也 会 写 一 份 数据 到 HLog 文件 中 ，HLog 文件 定期 会 滚动 出 
新 的 ， 并 删除 旧 的 文件 (已 持久 化 到 StoreFile 中 的 数据 )。 当 HRegionServer 意外 终止 后 ， 
HMaster 会 通过 Zookeeper 感知 到 ，HMaster 首先 会 处 理 遗 留 的 HLog 文件 ， 将 其 中 不 同 Region 
的 Log 数据 进行 拆 分 ， 分 别 放 到 相应 region 的 目录 下 ， 然 后 再 将 失效 的 region 重新 分 配 。 领 取 
到 这 些 region 的 HRegionServer 在 Load Region 的 过 程 中 ， 会 发 现 有 历史 HLog 需要 处 理 ， 因 此 
会 Replay HLog 中 的 数据 到 MemStore 中 ， 然 后 flush 到 StoreFiles， 完 成 数据 恢复 。 

上 面 的 系统 架构 也 再 次 说 明了 ， 传 统 关 系 型 数据 库 (RDBMS ) 是 一 行 一 行 存储 结构 化 数 
据 ， 而 HBase 是 一 个 面向 列 的 分 布 式 数据 库 ， 是 一 列 一 列 存储 结构 化 数据 ， 这 可 以 支持 高 并 发 
读 写 数据 请 求 ， 从 而 实现 数据 库 的 横向 扩展 。 
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HBase 在 HDFS 上 有 一 个 可 配置 的 根 目录 ， 默 认 设 置 为 /hbase。 通 过 配置 文件 hbase-site.xml 


可 以 设置 路 径 。 在 创建 表 并 导入 部 分 数据 之 后 ， 可 以 在 HDFS 上 的 HBase 根 目 录 下 看 到 HBase 
的 文件 。 其 中 一 类 是 位 于 表 目 录 下 面 的 文件 。 每 个 表 都 有 它 自己 的 目录 。 每 个 表 目 录 包 含 一 个 名 
为 .tableinfo 的 顶层 文件 ， 该 文件 保存 了 该 表 的 HTableDescriptor 序列 化 后 的 内 容 ， 包 含 了 元 数据 
信息 。 在 每 个 表 目 录 内 ， 针 对 每 个 列 簇 都 会 有 一 个 单独 的 目录 ， 这 个 目录 名 称 包含 了 Region 名 
称 的 部 分 信息 。 当 一 个 Region 内 的 存储 文件 大 于 hbase.hregion.max .fielsize 时 ， 该 Region 就 需要 
split 为 两 个 。 该 过 程 非常 快 ， 因 为 系统 只 是 为 新 Region 创建 两 个 引用 文件 ， 每 个 只 持 有 原来 
Region 一 半 的 内 容 。HBase 在 StoreFile 内 使 用 一 种 称 为 HFile 的 文件 存储 格式 来 存储 数据 。 文 件 
是 变 长 的 ， 定 长 的 块 只 有 file info 和 trailer 两 个 部 分 ， 而 trailer 中 包含 了 指向 其 他 数据 块 的 指针 

(注意 ， 这 是 文件 内 的 数据 块 大 小 ， 默 认为 64KB， 这 不 是 HDFS 的 数据 块 大 小 )。 文 件 的 每 个 
数据 库 包 含 了 一 系列 序列 化 的 KeyValue 对 象 和 Magic 头 。 查 询 数据 的 Get 方法 就 是 通过 Key 查 
找 Value。 


5.2.3 ”启动 并 操作 HBase 数据 库 


下 面 我 们 启动 并 操作 HBase 数据 库 。 


人 RD) 进入 Ambari， 找 到 HBase 组 件 ， 选 择 启 动 。 如 图 5-4 所 示 。 
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图 5-4 启动 HBase 


人 2 如 有 果 HBase 出 现 如 图 5-5 所 示 绿 色 的 对 号 小 图 标 ， 即 started， 则 显示 hbase 启动 成 


功 。 

© HDFS Summary Heatmaps Configs Quick Links™ 
© MapReduce2 
© YARN ni 
Te Active HBase Master © Started Master Started 22 27 hours 
© Hve RegionSevers 2/2 RegionServers Live Master Activated 2227 hours 

FF Regions In Transition 0 Average Load 1.5 regions perRegionServ 
各 Master Heap 30.3 MB / 990.8 MB (3.1% 
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图 5-5 HBase 状态 


添加 删除 ， 如 图 5-6 所 示 。 
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YARN 
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© ooae 
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人 D03 Ambari 提供 HBase 详细 信息 的 图 形 化 界面 ， 并 提供 监测 相关 的 小 插件 ， 插 件 可 以 自行 


Master Stared 2235 hours 
Master Actvated 2235 hours 
Average Load 15 reglon per ReglonServor 
NiasterHeap 32 1 MB /990.8 MB [3.2% used) 


ctions » | Last1hour = 


Open connectons Request Handiers 


No Datn Available No Data Available 


Cluster Network Cluster Disk 
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图 5-6 


可 添加 的 小 插件 如 图 5-7 所 示 。 


Widget Browser 
HDFS YARN HBase Accumulo 


Reads and Writes 加 


Count of read and write requests on all 


ww Added 


Write Latency 


maximum of 95% write latency 
4 


Request Handlers 


CountofActive handlers vs count of calls 


ww Added 


Blocked Updates 交 


Number of milliseconds uodates have been ~ 


日 Show only my widgets 


图 5-7 


可 添加 插件 
人 J04 输入 “hbase shell” 进入 HBase 数据 库 ， 如 图 5-8 所 示 。 


HBase 监控 状态 


Read Latency 


maximum of 95% read lalency 


Open Connections 
Count of open connectons across all 


w Added 


Files Local 革 


Average percentage of local fles to ~ 


v Added 


Cluster CPU 午 


Percentaoe of CPU utilized across all 
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hadoop/1ib/slf4j-1o 


/1ib/slf4j-1og 了 


an explanation 


Tf99bbd4r9, Tt 


图 5-8 ”HBase shell 界面 


DJ05 登录 HBase 数据 库 ， 验证 HBase 是 否 正常 。 输 入 list 命令 ， 列 出 HBase 中 的 所 有 表 ， 
如 图 5-9 所 示 
hbase (main) :001:0> 1is 


ambarismoketest 
1 row(s) in 0.8650 seconds 


> ["ambarismoketest"] 


图 5-9 ”Hbase shell 示例 


如 输出 HBase 中 的 表 ， 则 HBase 正常 。 
全 Dl06 退出 HBase Shell, 输入 exit 即 可 。 


5.2.4 HBase Shell 工具 
下 面 ， 我 们 通过 HBase 命令 行 工具 来 做 一 些 常用 的 HBase 操作 。 


1. status 命令 ( 查看 HBase 状态 


hbase (main) :001:0> status 
2 servers, 0 dead, 161.0000 average load 


从 上 面 的 返回 信息 看 出 ， 该 集群 有 2 个 RegionServer。 平 均 每 台 RegionServer 有 161 个 


Resgion。 


2. version 命令 


hbase (main) :002:0> version 
a r6a55f21850cfccf1l9fa651b9e2c74c7f99bbd4f9, Tue 


Jul 14 09:41:13 EDT 2015 
从 上 面 的 返回 结果 看 出 ， 一 共 包含 三 个 部 分 ， 用 逗号 分 隔 。 第 一 部 分 是 版 本 号 ， 第 二 部 分 是 
版 本 修订 号 ， 第 三 部 分 是 编译 HBase 的 时 间 。 
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3. create 命令 


创建 一 个 名 为 test 的 表 ， 这 个 表 只 有 一 个 列 为 cf。 其 中 表 名 和 列 簇 都 要 用 单 引号 括 起 来 ， 并 
以 逗号 阳 开 。 


创建 语句 可 以 有 不 同 的 格式 ， 比 如 ， 下 面 的 语句 创建 了 yang 表 ， 列 艇 为 抽 ， 该 列 簇 的 版 本 
数 为 5。 


在 上 面 的 格式 中 ，“=>” 表 示 赋 值 ， 字 符 串 使 用 单 引 号 引起 来 。 如 果 指定 的 列 艇 有 特定 的 
属性 ， 需 要 使 用 花 括 号 括 起 来 。 


4.list 命令 
查看 当前 HBase 中 具有 哪些 表 。 


5. put 命令 


使 用 put 命令 向 表 中 插入 数据 ， 参 数 分 别 为 表 名 、 行 名 、 列 名 和 值 ， 其 中 列 名 前 需要 列 簇 
为 前 级 ， 时 间 戳 由 系统 自动 生成 。 格 式 为 : “put 表 名 , 行 名 , 列 名 ([ 列 族 : 列 名 ]), 值 ”。 在 下 面 的 
例子 中 ， 我 们 加 入 三 行 数据 ， 第 一 行 的 行 键 为 “row1”， 列 为 cfa〔 列 簇 cf 和 列 名 a)， 值 为 
value1。 总 共 插入 3 条 记录 : 


6. describe 命令 
简单 就 一 个 describe 命令 用 法 ， 比 如 : 查看 表 “test” 的 结构 : 


hbase(main):998:9> describe ‘test* 

Table test is ENABLED 

test 

COLUMN FAMILIES DESCRIPTION 

{NAME => "cf'", DATA BLOCK ENCODING => "NONE', BLOOMFILTER => "ROW', REPLICATION_ 
SCOPE => “9'，VERSIONS => '1', COMPRESSION => ‘NONE’, MIN VERSIONS => "9'，TTL = 
> 'FOREVER', KEEP DELETED CELLS => "FALSE', BLOCKSIZE => '65536', IN MEMORY => ' 
false', BLOCKCACHE => ‘true’} 

1 row(s) in 9.3119 seconds 
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7. 查询 数据 ( get 命令 ) 
查看 表 “test” 中 的 行 键 “row1” 的 相关 数据 : 


获取 表 为 test 里 面 的 行 键 为 row1， 列 为 cf 的 所 有 数据 : 


获取 表 为 test 里 面 的 行 键 为 row1， 列 簇 为 cf 里 的 字段 为 a 的 所 有 数据 : 


你 还 可 以 通过 timestamp 来 获取 版 本 的 数据 : 


8. 全 表 查 询 


Scan 命令 可 以 带 上 过 滤 条 件 ， 比 如 : 


后 一 个 命令 指定 了 多 列 ， 限 定 了 返回 行 数 。 关 于 更 多 的 过 滤 条 件 ， 请 参见 5.3.1 小 节 中 的 过 


莫 
六 
9 记 
By 
| 


10. 删除 数据 delete 命令 
删除 行 键 为 row1l 的 行 的 “cfa” 字 段 : 


删除 整 行 ; 


11. 查 和 表 中 有 多 少 行 


12. 将 整 张 表 清 空 


HBase 是 先 将 表 disable， 然 后 drop 表 后 重建 表 来 实现 tuncate 的 功能 。 
13. 删除 表 


14. 自 增 


在 上 面 的 代码 中 ，create 创建 了 tablel 表 ，incr 是 计算 器 操作 的 命令 ， 对 应 的 字段 是 
cfl:count，get_counter 返回 计算 器 的 值 (13)。 在 HBase 表 中 ， 计 算 器 是 以 一 个 列 〈 字 段 ) 的 形 
式 存在 的 。 如 果 你 用 scan 命令 扫描 这 个 表 ， 你 就 会 发 现 这 个 列 。 

表 5-3 总 结 了 HBase 的 常用 命令 集 。 


表 5-3 HBase 的 常用 命令 集 


描写 


create 创建 表 

truncate 清空 表 ， 相 当 于 重新 创建 指定 表 
describe 显示 表 相 关 的 详细 信息 

alter 修改 列 簇 模式 

put 向 指定 的 表单 元 中 添加 值 

incr 增加 指定 表 、 行 或 列 的 值 

get 获取 行 或 单元 (cell) 的 值 
delete 删除 指定 的 对 象 值 ( 可 以 为 表 、 行 、 列 对 应 的 值 ) 
count 统计 表 中 的 行 数 

exists 测试 表 是 否 存 在 

list 列 出 HBase 中 存在 的 所 有 表 
scan 通过 对 表 的 扫描 来 获取 对 应 的 值 
disable 使 表 无 效 

drop 删除 表 

enable 使 表 有 效 
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( 续 表 ) 
常用 命令 描写 
status 返回 HBase 集群 的 状态 信息 
shutdown 关闭 HBase 集群 
exit 退出 HBase shell 
tools 列 出 HBase 所 支持 的 工具 
Version 返回 HBase 版 本 信息 
whoami 查看 用 户 身份 
hbck 文件 检测 修复 工具 
hfile 文件 查看 工具 
hlog 日 志 查 看 工具 
export 数据 导出 工具 
import 数据 导入 工具 


除了 使 用 Shell 工具 和 下 节 的 Java API 来 操纵 HBase 之 外 ，HBase 提供 了 Web UI 来 查看 
HBase 的 实时 状态 信息 。 


HBase 编程 


HBase 提供 了 对 大 规模 数据 的 随机 、 实 时 读 写 访问 。HBase 是 一 个 非 关 系 型 数据 库 ， 即 
NoSQL 数据 库 ， 它 不 使 用 SQL 作为 查询 语言 ， 也 避免 使 用 SQL 的 JOIN 操作 。RDBMS 要 求 每 
个 表 都 有 固定 的 表 模 式 〈 即 : 这 个 表 有 多 少 列 ， 各 个 列 的 名 称 和 数据 类 型 都 是 固定 的 )， 而 
HBase 的 表 模 式 可 以 不 国定 〈 即 每 一 行 的 数据 可 以 有 不 同 的 列 )。HBase 无 须 事先 为 要 存储 的 数 
据 建 立 字段 ， 允 许 随时 添加 字段 。 值 是 由 行 关键 字 、 列 关键 字 和 时 间 戳 确定 。 整 个 数据 模型 是 
Schema — Table ~ Column Family ~ Column ~ RowKey -- TimeStamp -- Value。HBase 提供 了 
丰富 的 Java API 来 操纵 数据 库 上 的 数据 。 


5.3.1 增删 改 查 API 


与 HBase shell 工具 相对 应 ， 我 们 可 以 通过 Table 接口 对 表 进 行 Get、Put、Scan、Delete 等 操 
作 ， 从 而 完成 向 HBase 存储 和 检索 数据 ， 删 除数 据 等 操作 。 比 如 : Table 接口 中 提供 了 get0 方 
法 ， 返 回 一 行 或 多 行 数据 。 如 图 5-10 所 示 ，HBase 提供 了 丰富 的 API 来 操纵 HBase 数据 库 。 
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图 5-10 HBase JAVA API 
下 面 我 们 说 明 常用 的 HBase API 所 提供 的 类 的 功能 ， 以 及 它们 之 间 有 什么 样 的 关系 。 


1. org.apache.hadoop.hbase.HBaseConfiguration 

作用 : 通过 此 类 可 以 对 HBase 进行 配置 。 

用 法 实例 : ”Configuration config = HBaseConfiguration.create(); 

说 明 : ”HBaseConfiguration.create() 默认 会 从 classpath 中 查找 hbase-site.xml 中 的 配置 信 
息 ， 初 始 化 Configuration。 


2. org.apache.hadoop.hbase.client.Connection 

作用 : Connection 是 一 个 接口 ， 它 的 对 象 代表 着 到 HBase 的 一 个 数据 库 连接 。 我 们 使 用 
ConnectionFactory.createConnection(config) 创 建 一 个 Connection。 通 过 这 个 Connection 实例 ， 可 以 
使 用 Connection.getTable() 方 法 取得 Table 对 象 ， 例 如 : 


3. org.apache.hadoop.hbase.client. Table 


作用 : 这 个 接口 可 以 和 HBase 进行 通信 ， 对 表 进 行 操作 。 
用 法 : Table tab = connection.getTable(TableName.valueOf("table1")); 
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ResultScanner sc = tab.getScanner(Bytes.toBytes(“familyName”)); 

说 明 : 获取 表 内 列 簇 包 milyNme 的 所 有 数据 。HBase 是 大 数据 的 分 布 式 数据 库 ， 当 使 用 全 表 
扫描 肯定 是 不 合理 的 。 我 们 可 以 给 Scan 操作 指定 startRow 参数 来 定义 扫描 读 取 HBase 表 的 起 始 
行 键 ， 同 时 也 可 选用 stopRow 参数 来 限定 读 取 到 何 处 停止 。Scan 操作 的 结果 被 封装 在 一 个 
ResultScanner 对 象 中 : 


这 个 Table 接口 包含 了 表 的 增删 改 查 的 API: 


4. org.apache.hadoop.hbase.client.Put 
作用 : 添加 一 行 数据 。 
用 法 : Put p=new Put(row); 
p-add(family,qualifier,value); 
table.put(p); 
说 明 : 构造 一 个 Put 对 象 〈 参 数 为 行 键 )， 该 对 象 封装 了 要 插入 的 数据 。 添 加 “family ( 列 
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簇 ) ,qualifier( 列 名 ) ,value〈 值 ) ”指定 的 值 。Table 接口 的 put 方法 要 么 向 表 插 入 新 行 ( 如 果 
行 键 是 新 的 )， 要 么 更 新 行 (如果 行 键 已 经 存在 )。 可 以 一 次 向 表 中 插入 一 行 数据 ， 也 可 以 一 次 操 
作 一 个 集合 ， 同 时 向 表 中 写 入 多 行 数据 。 要 注意 的 是 ，HBase 没有 Update 操作 ， 这 是 通过 Put 
操作 完成 对 数据 的 修改 的 。Put 操作 会 为 一 个 Cell 创建 一 个 版 本 ， 默 认为 当前 的 时 间 戳 ， 我 们 也 
可 以 自己 设置 时 间 戳 。 
5. org.apache.hadoop.hbase.client.Get 
作用 : 获取 单个 行 的 数据 。 
用 法 : Get get = new Get(row); 
get.addColumn(family,qualifier);// 可 以 不 指定 列 信息 ， 则 返回 所 有 列 
Result result = table.get(get); 


说 明 : 构造 Get 对 象 ， 该 对 象 封 装 了 要 查询 的 行 键 、 列 艇 和 列 名 。 执 行 查询 后 就 获取 了 表 中 
row 行 的 对 应 数据 。 默 认 情况 下 ，get0 方 法 一 次 取 回 该 行 全 部 列 的 数据 ， 我 们 可 以 限定 只 返回 某 
个 列 簇 对 应 的 列 的 数据 ， 或 者 进一步 限定 为 某 些 列 的 数据 。 正 如 上 面 例子 中 所 看 到 的 ， 该 方法 返 
回 的 数据 将 被 封装 在 一 个 Result 对 象 中 。 用 Result 类 提供 的 方法 ， 可 以 从 服务 器 端 获 取 匹 配 指 
定 行 的 特定 返回 值 ， 这 些 值 包括 列 簇 、 列 限定 符 和 时 间 戳 等 。 我 们 可 以 在 Get 对 象 上 设置 版 本 信 
息 ， 用 于 返回 老 版 本 。 比 如 ， 下 面 的 代码 设置 了 要 返回 最 近 3 个 版 本 : 

get .setMaxVersions (3); 


由 于 HBase 按 列 存储 特性 ， 所 以 ， 按 照 行 键 的 查询 的 速度 非常 快 ， 应 该 在 毫秒 级 别 。 按 照 
行 键 查 询 是 HBase 检索 中 最 常用 ， 并 且 是 速度 最 快 的 查询 。 
6. org.apache.hadoop.hbase.client.ResultScanner 
作用 : 获取 多 行 数据 〈 也 叫 扫描 读 )。 
用 法 : ResultScanner scanner= table.getScanner(family); 
For(Result rowResult : scanner){ 


Bytes[] str = rowResult.getValue(family,column); 


} 
说 明 : 循环 获取 行 中 列 值 。 
7. org.apache.hadoop.hbase.client.Scan 
作用 : 获取 多 行 数据 (也 叫 扫 描 读 )。 
用 法 : Scan scanner =new Scan(); 
scanner.setTimeRange(startTime,endTime);// 设 置 时 间 段 
scanner.setStartRow(startRow); 
scanner.setSTopRow(stopRow); 
scanner.addColumn(family,column); 


ResultScanner rsScanner = table.getScanner(scanner); 
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For(Result rowResult : scanner){ 
Bytes[] str = rowResult.getValue(family,column); 
} 


说 明 : 循环 获取 行 中 列 值 。 上 面 的 扫描 器 scan.setStartRow(Bytes) 和 scan.setStopRow(Bytes) 
是 用 来 设置 要 查询 的 数据 的 行 键 的 范围 。 


8. org.apache.hadoop.hbase.client.Delete 

作用 : 这 是 HBase 的 JAVA API 中 删除 数据 的 类 。 我 们 可 以 通过 多 种 方法 限定 要 删除 的 数 
据 。 与 RDBMS 不 同 ，HBase 可 以 删除 某 一 个 列 禾 、 某 个 列 、 某 个 单元 ， 或 者 指定 某 个 时 间 蕉 ， 
删除 比 这 个 时 间 早 的 数据 。 比 如 : 


在 上 面 的 例子 中 ， 构 造 Delete 对 象 ， 封 装 所 要 删除 的 行 键 和 列 信息 ， 然 后 执行 删除 操作 。 


5.3.2 ”过 滤器 


上 节 中 的 操作 过 于 简单 ， 有 时 就 不 能 满足 复杂 查询 的 需求 。 这 时 候 就 需要 更 加 高 级 的 过 滤器 
(Filter) 来 查询 了 。 前 面 的 Get 和 Scan 类 都 可 以 配置 过 滤器 ， 方 法 为 setFilter(filter)。 过 滤器 可 
以 根据 列 徐 、 列 、 版 本 等 更 多 的 条 件 来 对 数据 进行 过 滤 。 基 于 HBase 本 身 提供 的 三 维 ( 行 键 、 
列 、 版 本 )， 这 些 过 滤器 可 以 更 高 效 地 完成 过 滤 功 能 。 过 滤器 是 在 RegionServer 上 发 挥 作用 ， 所 
以 ， 过 滤器 可 以 减少 网 络 传输 的 数据 。 下 面 我 们 来 看 一 下 具体 的 过 滤器 类 。 


1. org.apache.hadoop.hbase .filter.FilterList 


作 用 : FilterList 代表 一 个 过 滤器 列表 ， 过 滤器 之 间 具 有 
FilterListOperatorMUST PASS_ALL (就 是 AND) 和 FilterLisLOperatorMUST PASS_ONE (就 
是 OR) 的 关系 ， 下 面 展示 一 个 过 滤器 的 “或 ”关系 ， 检 查 同一 属性 的 “valuel” 或 “value2”。 
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2. org.apache.hadoop.hbase .filter.SingleColumnValueFilter 

作用 : SingleColumnValueFilter 类 是 一 个 列 值 过 滤器 ， 用 于 测试 列 值 是 否 相等 
( CompareOp.EQUAL ) ， 不 等 (CompareOpNOT EQUAL )， 或 范围 (比如 : 
CompareOp.GREATER)。 下 面 的 例子 检查 了 列 值 和 字符 串 “values ”是否 相等 : 


3. org.apache.hadoop.hbase.fiterColumnPrefixFilter 


作用 : ColumnPrefixFilter 用 于 返回 只 与 指定 列 名 的 前 级 相等 的 那些 行 。 在 HBase 中 ， 每 行 
的 列 的 个 数 可 能 是 不 同 的 。 比 如 : 下 面 是 查找 以 “yang” 为 前 级 的 所 有 列 的 值 : 


4. org.apache.hadoop.hbase.fiterMultipleColumnPrefixFilter 


作用 : MultipleColumnPrefixFilter 和 ColumnPrefixFilter 行为 差不多 ， 但 可 以 指定 多 个 前 
级 。 比 如 : 下 面 指定 了 “yang” 和 “zhenghong” 两 个 前 级 : 


5. org.apache.hadoop.hbasefiterColumnRangeFilter 


作用 : ColumnRangeFilter 过 滤器 可 以 进行 列 名 内 部 扫描 。 比 如 下面 的 例子 扫描 所 有 在 “a- 
100” 和 “b-999” 之 间 的 列 : 
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6. org.apache.hadoop.hbase filter.QualifierFilter 
作用 : QualifierFilter 是 基于 列 名 的 过 滤器 。 比 如 : 


7. org.apache.hadoop.hbase .filter.RowFilter 


作用 : RowFilter 是 行 键 过 滤器 。 一 般 而 言 ， 执 行 Scan 时 使 用 startRow/stopRow 方式 比较 
好 。 这 个 行 键 过 滤器 完成 对 某 一 行 的 过 滤 。 比 如 : 


8. org.apache.hadoop.hbase.fiterPageFilter 
作用 : PageFilter 用 于 按 行 分 页 。 比 如 


比较 器 是 过 滤器 的 核心 组 件 之 一 ， 用 于 处 理 具体 的 比较 逻辑 ,下 面 就 是 各 个 比较 器 类 : 
1. org.apache.hadoop.hbase .filter.RegexStringComparator 


作用 : RegexStringComparator 是 支持 正则 表达 式 的 比较 器 。 
过 滤器 与 比较 器 一 起 使 用 会 很 方便 。 下 面 的 代码 中 的 参数 reg 就 是 正则 验证 的 规则 。 


2. org.apache.hadoop.hbase.fiterSubstringComparator 
作用 : SubstringComparator 用 于 检测 一 个 子 串 是 否 存在 于 列 〈 单 元 ) 值 中 。 大 小 写 不 敏 
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3. org.apache.hadoop.hbase .filter.BinaryPrefixComparator 

作用 : BinaryPrefixComparator 是 前 级 二 进 制 比 较 器 ， 它 只 比较 前 级 是 否 相 同 。 

4. org.apache.hadoop.hbase .filter.BinaryComparator 

作用 : BinaryComparator 是 二 进 制 比较 器 ， 用 于 按照 字典 顺序 比较 Byte 数据 值 ， 比 如 : 


5.3.3 ”计数 器 


Hbase 提供 一 个 计数 器 工具 ， 可 以 方便 快速 地 进行 计数 的 操作 ， 从 而 免 去 了 加 锁 等 保证 原子 
性 的 操作 。 实 质 上 ， 计 数 器 还 是 列 ， 有 自己 的 簇 和 列 名 。 值 得 注意 的 是 ， 维 护 计数 器 值 的 最 好 方 
法 是 使 用 HBase 提供 的 API， 直 接 操作 更 新 很 容易 引起 数据 的 混乱 。 计 数 器 的 增 量 可 以 是 正 数 
或 负数 ， 正 数 代表 加 ， 负 数 代表 减 。 计 数 器 在 RegionServer 上 完成 。 

org.apache.hadoop.hbase.client.Table 接口 提供 了 incrementColumnValue(byte[] row, byte[] family, 
byte[] qualifier long amount) 方 法 在 某 一 行 某 一 列 上 增加 值 。 比 如 : 


多 列 计数 器 需要 使 用 计数 器 的 类 ， 即 : org.apache.hadoop.hbase.client.Increment。 首 先 使 用 
Increment 的 构造 方法 构造 一 个 mcrement 实例 ， 然 后 使 用 这 个 类 的 addColumn (byte[] family, byte[] 
qualifier long amount) 方 法 指定 一 个 计数 器 列 。 多 次 调用 这 个 方法 可 以 添加 多 个 列 。 比 如 : 
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5.3.4 ”原子 操作 


HBase 提供 基于 单行 数据 操作 的 原子 性 保证 。 即 ， 对 同一 行 的 变更 操作 (包括 针对 一 列 /多 
列 /多 列 簇 的 操作 )， 要 么 完全 成 功 ， 要 么 完全 失败 ， 不 会 有 其 他 状态 ， 比 如 : 


cfl 和 cf2 为 列 禾 ， a 和 b 为 列 。A 客户 端 和 B 客户 端 同时 发 起 请 求 ， 最 终 rowkey=100 的 行 
的 各 个 列 的 值 可 能 是 cfl:a = 1 cf2:b=1， 也 可 能 是 cfl:a = 2 cf2:b=2， 但 绝对 不 会 是 cfl:a = 1 
cf2:b=2。HBase 基于 行 锁 来 保证 了 单行 操作 的 原子 性 。 还 有 ，Table 接口 提供 了 checkAndPutO 和 
checkAndDelete 方法 ， 这 两 个 方法 在 维持 原子 操作 的 同时 还 提供 了 更 精细 的 控制 ， 比 如 : 
tab.checkAndPut(rowKey,family,column,value,put) 检 查 这 个 列 值 是 否 等 于 指定 的 值 value( 即 : 值 没 
有 发 生 改变 )， 如 果 等 于 则 put 新 值 。 


5.3.5 ”管理 API 


org.apache.hadoop.hbase.client.Admin 是 一 个 管理 的 接口 ， 可 以 管理 HBase 数据 库 中 的 表 。 它 
通过 Connection.getAdmin0 获 得 Admin 的 一 个 实例 。 通 过 这 个 接口 ， 我 们 可 以 创建 表 、 删 除 
表 、 修 改 表 、 查 询 表 的 信息 等 。 还 可 以 管理 Region， 分 割 与 合并 等 操作 。 

下 面 是 涉及 表 的 创建 、 删 除 、 修 改 的 方法 。 创 建 表 的 方法 都 以 create 开头 ， 删 除 都 以 delete 
开头 。 
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在 上 面 的 API 中 ， 有 以 下 两 个 描述 表 和 列 的 类 : org.apache.hadoop.hbase.HTableDescriptor 包 
含 了 表 的 名 字 以 及 表 的 列 簇 信息 ，org.apache.hadoop.hbase.HColumnDescriptor 维护 列 簇 的 信息 。 
用 法 如 下 : 


使 用 Java API 删除 一 个 表 时 ， 需 要 包含 2 个 步骤 ， 第 一 步 是 disableTable(tableName)， 第 二 
步 是 deleteTable (tableName)。 第 一 个 API 禁用 表 ， 第 二 个 API 删除 表 。 下 面 的 例子 演示 了 如 何 
添加 、 删 除 和 修改 列 信息 : 


HBase 也 提供 了 类 似 触发 器 和 存储 过 程 的 功能 ， 这 是 通过 协 处 理 器 完成 的 ， 协 处 理 器 提供 的 
Observer 类 似 RDBMS 的 触发 器 ， 而 协 处 理 器 提供 的 EndPoint 类 似 存储 过 程 。 关 于 这 方面 的 具 
体内 容 ， 可 参考 HBase 文档 。 


与 .入 其 他 NosQL 数据 库 


Cassandra 和 Impala 是 另外 两 个 知名 的 NoSQL 数据 库 。Cassandra 是 一 套 开源 分 布 式 NoSQL 
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数据 库 系 统 ， 能 够 在 一 堆 普通 的 服务 器 上 存储 和 管理 数据 。 它 最 初 由 Facebook 开发 ， 用 于 存储 
和 查询 Facebook 收 件 箱 。Cassandra 既 可 用 作 实 时 的 数据 存储 比如 : 在 线 事务 系统 )， 也 可 用 
作 大 型 的 BI 系统 〈 这 些 系 统 往往 是 有 大 量 的 读 操作 )。Cassandra 的 每 个 节点 的 角色 是 一 样 的 ， 

没有 主 从 节点 之 分 ， 所 有 节点 彼此 同等 地 通信 。 这 个 优势 保证 了 Cassandra 没有 单 点 失败 的 问 


题 。 


Twi 
个 二 


由 于 Cassandra 良好 的 可 扩展 性 ， 它 被 苹果 、Comcast、Instagram、Spotify、eBay、Netflix、 
tter 等 知名 公司 所 使 用 ， 成 为 了 一 种 流行 的 分 布 式 数据 存储 方案 。 使 用 Cassandra 的 最 大 的 一 


生产 系统 是 在 75000 节点 的 集群 之 上 操作 PB 级 别 数据 。 


Impala 是 Cloudera 公司 主导 开发 的 新 型 查询 引擎 ， 它 提供 SQL 语义 ， 能 查询 存储 在 Hadoop 


的 HDFS 和 HBase 中 的 PB 级 大 数据 。 已 有 的 Hive 系统 虽然 也 提供 了 SQL 语义 ， 但 由 于 Hive 
底层 执行 使 用 的 是 MapReduce 引擎 ， 仍 然 是 一 个 批 处 理 过 程 ， 难 以 满足 查询 的 交互 性 。 相 比 之 


下 
Hiv 


96 


Impala 的 最 大 优势 就 是 它 比 Hive 较 少 的 延迟 (SQL 的 执行 速度 快 )。 读 者 需要 注意 的 是 ， 
e 支持 所 有 来 自 Impala 的 调用 ， 但 是 ， 反 之 则 不 成 立 。 


第 4 章 


< 大 数据 访问 : SQL 引 荃 层 > 


在 上 一 章 ， 我 们 提 到 了 HBase 的 很 多 优点 ， 比 如 ，HBase 提供 了 海量 数据 的 毫秒 级 查询 。 
可 见 ，HBase 是 个 非常 好 的 实时 查询 框架 ， 缺 点 就 是 查询 功能 非常 薄弱 ， 仅 限于 通过 行 键 查询 。 
还 有 一 点 是 ， 许 多 程序 员 和 DBA 对 HBase 还 是 很 不 习惯 ， 因 为 他 们 需要 抛弃 从 前 关系 数据 库 的 
很 多 常识 来 学 习 如 何 使 用 HBase。 那 么 ， 有 没有 一 种 方法 操作 HBase， 就 像 操作 传统 的 关系 型 数 
据 库 一 样 呢 ? 这 就 是 本 章 我 们 要 阐述 的 Phoenix， 它 提供 了 HBase 的 SQL 访问 功能 ， 可 以 使 用 
标准 的 JDBC API 操作 去 创建 表 、 插 入 记录 、 查 询 数据 。Phoenix 是 一 个 Java 中 间 层 ， 可 以 让 开 
发 者 在 Apache HBase 上 执行 SQL 查询 。 将 SQL 查询 转换 为 一 个 或 多 个 HBase scan， 并 编排 执 
行 以 生成 标准 的 JDBC 结果 集 。 如 果 我 们 手工 使 用 HBase 的 API 去 写 这 些 代 码 ， 也 会 得 到 相同 
的 运行 结果 和 执行 速度 。 但 是 ， 使 用 phoenix 的 效果 却 会 带 来 更 快 的 开发 效率 。 与 直接 使 用 
HBase API、 协 同 处 理 器 与 自 定义 过 滤器 相 比 ， 对 于 简单 查询 来 说 ，Phoenix 性 能 量 级 是 毫秒 ， 对 
于 百 万 级 别 的 行 数 来 说 ， 其 性 能 量 级 是 秒 。 

大 数据 时 代 的 信息 
行业 (比如 : 互联 网 行业 )， 海 量 数据 需要 更 大 的 硬件 资源 来 处 理 。 从 单机 应 用 到 集群 应 用 的 发 
展 中 ,诞生 了 Hadoop MapReduce 这 样 的 分 布 式 框架 ， 简 化 了 并 行程 序 的 开发 ， 提 供 了 水 平 扩展 
和 容错 能 力 。 虽 然 MapReduce 的 应 用 非常 广泛 ， 但 这 类 框架 的 编程 接口 仍然 比较 低级 ， 编 写 复 
杂 处 理 程序 或 Ad-hoc 查询 仍然 十 分 耗 时 ， 并 且 代码 很 难 复 用 ， 学 习 成 本 太 高 。 目 前 ，Google、 
Facebook 等 公司 都 在 底层 分 布 式 计算 框架 之 上 又 提供 更 高 层次 的 编程 模型 ， 将 开发 者 不 关心 的 
细节 封装 起 来 ， 提 供 了 更 简洁 的 编程 接口 。Hive 就 是 这 样 的 一 种 工具 ， 它 提供 了 类 似 SQL 的 
Hive 查询 语言 (简称 HiveQL ) 来 查询 HDFS 和 HBase 上 的 数据 。Hive 可 以 将 这 些 查询 转换 为 
MapReduce 任务 ， 从 而 让 开发 人 员 使 用 熟悉 的 SQL 来 开发 Hadoop 应 用 系统 。 它 最 先是 由 
Facebook 开发 并 贡献 出 来 的 ， 现 在 包括 Netflix 等 公司 都 在 使 用 和 更 新 这 个 系统 。 

本 章 主 要 讲解 Phoenix 和 Hive。 我 们 统称 为 大 数据 访问 的 SQL 引擎 层 。 


Phoenix 


Phoenix 是 由 Salesforce 公司 开源 提供 给 Apache。Phoenix 查询 引擎 会 将 JDBC API 编译 成 一 
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系列 的 HBase 的 scan 操作 和 服务 器 端的 过 滤器 ， 执 行 后 生成 标准 的 JDBC 结果 集 返 回 。 本 质 上 
讲 ，Phoenix 就 是 能 够 让 开发 人 员 使 用 SQL 和 JDBC 来 访问 HBase。 因 此 ，Phoenix 是 构建 在 
Apache HBase〔 列 式 大 数据 存储 ) 之 上 的 一 个 SQL 中 间 层 ， 它 完全 使 用 Java 编写 ， 类 似 一 个 内 
散在 客户 端的 JDBC 驱动 程序 。Phoenix 对 于 程序 员 和 DBA 来 说 ， 是 一 个 不 用 学 习 HBase 就 可 
以 进行 开发 和 管理 HBase 的 好 工具 。 有 了 Phoenix， 你 就 可 以 使 用 最 熟悉 的 SQL 语句 和 JDBC 
API 对 数据 进行 查询 、 增 加 、 修 改 和 删除 了 。Phoenix 的 官网 是 http://phoenix.apache.org。 使 用 
Phoenix 开发 JDBC 程序 同一 般 的 JDBC 程序 没有 太 大 区 别 。 下 面 是 Phoenix 的 一 些 特性 : 


许 入 式 的 JDBC 驱动， 实现 了 大 部 分 的 java.sql 接口 ， 包 括 元 数据 API; 

可 以 通过 多 行 键 或 是 键 / 值 单元 对 列 进行 建 模 ; 

完善 的 查询 支持 ， 可 以 使 用 多 个 谓词 以 及 优化 的 scan; 

DDL 支持 : 通过 CREATE TABLE、DROP TABLE 及 ALTER TABLE 来 创建 表 ， 并 给 
表 添 加 /删除 列 ; 

DML 支持 : 用 于 逐 行 插入 的 UPSERT VALUES、 用 于 相同 或 不 同 表 之 间 大 量 数据 传输 
的 UPSERT SELECT、 用 于 删除 行 的 DELETE; 

从 4.7 版 本 开始 支持 事务 ， 并 紧 跟 ANSI SQL 标准 ; 

Phoenix 将 Query Plan 直接 使 用 HBase API 实现 ， 减 少 了 查询 的 时 间 延 迟 。Phoenix 的 
SQL Query Plan 基本 上 都 是 通过 构建 一 系列 HBase Scan 来 完成 。 


在 HBase 上 提供 SQL 接口 ， 有 如 下 几 个 原因 : 


6.1.1 


使 用 诸如 SQL 这 样 易于 理解 的 语言 可 以 使 人 们 能 够 更 加 轻松 地 使 用 HBase 。 相 对 于 学 
习 另 一 套 私 有 API， 人 们 可 以 使 用 熟悉 的 SQL 语言 来 读 写 数据 ; 

使 用 诸如 SQL 这 样 更 高 层次 的 语言 来 编写 ， 减 少 了 你 所 需 编 写 的 代码 量 。 比 如 ， 使 用 
Phoenix 比 使 用 原生 的 HBase API 会 少 很 多 行 代 码 ; 

加 上 SQL 这 样 一 层 抽象 层 可 以 对 查询 进行 大 量 优化 。 比 如 ， 对 于 GROUP BY 查询 来 
说 ， 我 们 可 以 利用 HBase 中 协同 处 理 器 这 样 的 特性 。 借 助 于 该 特性 ， 我 们 可 以 在 
HBase 服务 器 上 执行 Phoenix 代码 。 因 此 ， 聚 合 可 以 在 服务 端 执行 ， 而 不 必 在 客户 端 ， 
这 样 会 极 大 减少 客户 端 与 服务 端 之 间 传 输 的 数据 量 。 此 外 ，Phoenix 还 会 在 客户 端 并 行 
执行 GROUP BY， 这 是 根据 行 键 的 范围 来 截断 扫描 而 实现 的 。 通 过 并 行 执行 ， 结 果 会 
更 快 地 返回 。 所 有 这 些 优化 都 无 须 用 户 参 与 ， 用 户 只 需 发 出 查询 即 可 。 

通过 使 用 业界 标准 的 API (如 JDBC ) ， 我 们 可 以 利用 现 有 的 工具 来 使 用 这 些 API。 比 
如 ， 你 可 以 使 用 现成 的 SQL 客户 端 (如 Squirrel ) 连接 HBase 服务 器 并 执行 SQL。 


安装 和 配置 Phoenix 


Phoenix 项 目 是 构建 在 Apache HBase 之 上 的 一 个 SQL 中 间 层 ， 通 过 标准 化 的 SQL 语言 来 
访问 HBase 数据 ， 但 是 性 能 上 不 差 。 对 于 10 万 到 100 万 的 行 的 简单 查询 来 说 ，Phoenix 要 胜 过 
Hive。 对 于 使 用 了 HBase API、 协 同 处 理 器 及 自 定 义 过 滤器 的 Impala 与 OpenTSDB 来 说 ， 进 行 
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相似 的 查询 ，Phoenix 的 速度 也 会 更 快 一 些 。Phoenix 的 官方 下 载 地 址 为 
http://phoenix.apache.org/download.html。 在 HDP yum 源 里 有 Phoenix 安装 包 。 安 装 步 骤 如 下 : 


1 在 master 上 运行 : 


Yum install phoenix -y 


[02 在 slave 各 节点 ， 将 Phoenix-serverjar 包 从 master 上 复制 到 hbase 的 lib 目录 下 
[03 重启 Hbase 完成 安装 


为 了 在 Windows 上 使 用 Phoenix， 你 需要 安装 一 个 可 视 化 控件 squirrel-sql。 在 Windows 上 安 
装 squirrel-sql 的 步骤 如 下 : 
首先 把 这 个 安装 包 〈squirrel-sql-3.5.2-standard,jar ) 拷贝 到 机 器 上 
进入 命令 行 操作 界面 (cmd )， 如 图 6-1 所 示 


doopyc; \progra™l\ 


图 6-1 执行 安装 


序 


在 命令 行 窗 口中 ， 切 换 到 包含 安装 包 的 位 置 ， 然 后 输入 java -jar squirrel-sql-3.5.2- 
standard.jar ( 如 图 6-1 所 示 )， 安 装 程序 开始 执行 。 如 图 6-2 所 示 ， 按 照 安装 程序 的 提 


示 ， 确 定 所 安装 的 路 径 ， 然 后 一 步 步 安装 下 去 
| IzPack - Installation of SQuirreL SQL Client 一 口 区 到 
EE select the installation path 
kk:\Program Files\squirrel-sqH-3.5.2 蕊 Browse... 
Mage win Pacs -hapVizpacs on 
全 Frevious 命 Next Oout 


图 6-2 安装 路 径 
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人 4 拷贝 phoenix 的 客户 端 jar 包 ( phoenix-4.1.0-incubating-SNAPSHOT-clientjar 和 
phoenix-core-4.1.0-incubating-SNAPSHOT ) 到 安装 目录 的 lib 文件 夹 下 (在 我 的 机 器 
上 ， 是 C:\Program Files\squirrel-sql-3.5.2\lib )- 

GTI05 启动 squirrel， 如 图 6-3 所 示 。 


SQuirreL SQL Client 


6-3 ”SQuirmeL 安装 图 标 

《6 下 面 开始 配置 SQuirreL。 在 如 图 6-4 的 窗口 上 单 击 左 侧 的 Driver， 单 击 加 号 ， 添 加 如 
图 6-5 所 示 的 数据 库 驱 动 器 。 

Connect to: ltest be | 呆 | 局 | Active Session: 上 -test 0 as hadoop 


EE 


x 1-test0ashadoop | 


有 rE | 6 | se | .< TT 和 = 一 

[ejylmlols] [sl [x s [CllolB] al al la [ool | 
DBC ODBC B |= 二 = | 下 一 本 -| 

二 "do 各 Objects | SQL 

@ JTDS Microsoft SQL| select * from test 

TDS Vbase select * fron test 

四 JTOpen(AS5/400) P33 


ee sleet from tas | 
@ MariaDB Driver for 
四 Mckoi Rows 1; Select * from test 


@ Microsoft MSSQL Sel Results | MetaData | Info | Overview / Charts | 
© Mimer SQL MYCOLU... 
四 MMMySQL Driver 加 Worial 
@ MongoDB 
@ MysQL Driver 
四 NuoDB 
@ Oracle 0CI Driver 
@ Oracle Thin Driver 
Phoenix 人 
se Embedd| 


Nir nm 


6-4 ”SQuirreL 窗口 
DI07 如 图 6-5 所 示 ， 图 上 的 参数 的 含义 如 下 : 


name: 驱动 程序 的 名 称 ; 

Example URL: jdbc:phoenix: master; 

java Class path: 要 选中 phoenix 客户 端的 jar 包 ; 
Class Name : org.apache.phoenix.jdbc.PhoenixDriver. 


配置 完成 后 ， 单 击 OK 按钮 即 可 。 
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DisquimehHsqH3.5 2Wiblasm-atrsjar 
DisquimehsqH35 2Wiblasmjar 
DisquimeHsqH3.5 2Wibvautocompletejar 
DisquimeHsqH3.5 2Wibvaxis-janpcjar 
DisquireHsqH3.5 2Wibvaxis-saajjar 
DisquireHsqH3.5 2Wibvaxis-wsdl4jjar 


DisquirreHsqH3.52Mibvaxis jar - 
(FE I oi 
Class Name: |org apache phoenirJdbc PhoenixDriver | 
[ee JL owse | 
图 6-5 ”驱动 程序 配置 
人 8 单 击 图 6-4 上 的 左 侧 的 Aliases， 添 加 一 个 数据 库 连 接 的 别名 ， 具 体 参 数 如 下 (如 图 
6-6 所 示 ) 。 
@ Name: 别名 ; 
@ Driver: 选择 我 们 刚刚 添加 的 一 个 名 叫 Phoenix 的 Driver; 
@ URL: 输入 在 Driver 里 面 的 Example URL 的 内 容 ; 
@ User Name: 连 接 HBase 的 用 户 名 ; 
@ Password: 上 述 用 户 名 的 密码 。 
S Change Alias: zwhbase 
Change Alias: zwhbase 
Name: lewhbase 
Drver V phoenix 加 | New “| 
URL idbcphoenicmaster 


UserName: [hadoop 


磺 Properties 


Waming - Passwords are saved in dleartext 


[asa 
图 6-6 别名 的 配置 信息 
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如 果 在 URL 那里 填写 的 是 matser， 那 就 必须 在 Windows 的 系统 文件 hosts (在 我 机 器 上 的 位 
置 是 C\Windows\System32\drivers\etc) 中 配置 一 下 master 所 对 应 的 人 地 址 。 我 们 可 以 在 命 
令 行 窗口 上 来 执行 “ping master”。 如 果 ping 得 通 ， 说 明 配置 正确 。 当 然 ， 你 也 可 以 直接 使 
用 下 地址 。 


I09 右 击 刚刚 创建 的 别名 ， 在 弹出 菜单 上 选择 Connect， 如 图 6-7 所 示 。 这 时 弹出 如 图 6-8 
所 示 的 窗口 。 


Ele Drvers Aiases Plugins Session Windows Help 


Connectto: aunbase [~ 


雹 Conned 


克 New Alias. 
ip Modfy Aias 
转 copy Alias. 
等 Delete Aias 
Aias Propertes 
也 open Aias with recent or favourite fle 
地 SorAiases 
DE View Mliases intree 


New Mias Folder 


Copy to paste Alias or Folder 
t Ca 


6-7 别名 的 菜单 项 


S$ Connectto:zwhbase 


| Connectto: zwhbase 一 一 


Alias: zwhbase 
Drver phoenix 
URL jdbcphoenibcmaster 
User 
Password: 


Warming - Caps lock may interfere with passwords 


[Connect Cancel 
| 
| Connecting... 


6-8 ”连接 到 HBase 数据 库 
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人 ERIO 如 果 B 连接 成 功 , 说 明 配 置 成 功 。 之 后 就 可 以 进行 SQL 操作 了 。 如 图 6-9 所 示 执行 了 
一 个 SELECT 查询 。 


pe ne me a 本 本 目 
图 6-9 执行 数据 库 查询 


(CETT1 如 果 连 接 成 功 ， 可 在 Objects 面板 下 看 到 如 图 6-10 所 示 的 数据 库 表 等 信息 。 


文件 驱动 程 所 “别名 插件 会 话 窗口 帮助 
Connedtto:|est|=| | 喝 | 而 | Adive session:|1-test0 > 加 [回回 | 


Row Count | Columns | Priman Key | ExportedKeys | Impored Keys | Indexes | Prvileges | Cc 


Propery Name Value 


Drivers 


[<null> 
nu 
[num> 
TEST 
ET 
-num> 
TEST 
|TABLE 


6-10 ”数据 库 表 信息 


ETi2 在 安装 完成 后 ， 你 可 以 执行 数据 库 肢 本 ( 如 果 有 的 话 ) 来 创建 你 的 数据 库 。 可 将 整个 
脚本 的 SQL 语句 复制 到 squirrel-sql 客户 端的 SQL 执行 界面 ， 并 执行 之 。 
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CLIT3 查看 刚 创建 的 表 ， 如 图 6-11 所 示 。 


JOCUMENIS 
EMAILRULE 
=ILERULE 
=OLDERLINK 
IDOCUMENT 
MAXIDFORNAME 
MTIMETYPES 

MYSPACE 
NAMECATALOG 
NODETYPE 
NODETYPEVIEW 
2ERMISSIONS 
3ERMISSIONSINROLE 
3RINCIPALS 
3ROPERTYDEFINITION 
5ROPERTYMAP 
3ROPERTYREFERENCE 
3ROPERTYTYPE 
3ROPERTYTYPEGROUP 
3EFERENCEMINVALUE 
3EMOTESERVERS 
3EPLICATIONRULE 
AEPORTRULE 
3ULEONFOLDER 
3ULEONMESSAGE 
3ULEONSOURCE 
SAVEDSEARCH 
SECURITYROLES 
5TORAGES 

5YSTEM. CATALOG 
SYSTEM. SEQUENCE 
TARGETCONTENTTYPES 
TARGETSERVERS 
TASKDEFINITION 
JSERGROUPS 
MORKQUEUES 
WNQINROLE 
YOUNGCOLLECTOR 
YOUNGDRIVER 
YOUNGSCHEDULE 

31 rowCs) in 0.5400 seconds 


"ACTIVITIES", Ceo ERT aN “BPMSTEPS" , 
HECKEDOUTCONTENT" "COLLECTRUL 
“CONTENTLINK", "CONTENTREF 
T) ERULE", "D 
"FOLDERLIN 


["ACCESSCONTROLLISTS" , "ACLENT, 

PMWORKS” , "BUSINESSPROCESS" , 

"CONDITIONLISTS", "CONTAINERS” , 
T 


“PROPERTYTYPEGRO 
REPORTRULE , “RUL 
EONFOLDER" “SECURITYROLES* , "ST 
JRAGES", * Ql “TARGETCONTENTTYPES", "TARGETSERVE 
35", "TASKDEFINITION", “USERGROUPS’”, "WORKQUEUES", “WAINROLE”, "YOUNGCOLLECTOR", 
“YOUNGSCHEDULE"] 

ee 008:0> 


图 6-11 查看 HBase 表 


6.1.2 在 eclipse 上 开发 phoenix 程序 


在 eclipse 上 配置 Phoenix 之 前 ， 我 们 首先 确认 squirrel-sql-3.5.2 已 经 安装 成 功 ， 并 且 可 以 连 
接 上 master 的 那 台 服务 器 。 然 后 在 机 器 上 安装 eclipse。 


要 检查 机 器 的 操作 系统 是 多 少 位 的 。 如 果 是 32 位 的 ， 你 的 机 器 必须 安装 32 位 的 JDK 和 32 
【 位 的 eclipse; 如 果 是 64 位 的 ， 你 的 机 器 必须 安装 64 位 的 JDK 和 64 位 的 eclipse。 


(1) 在 安装 eclipse 成 功 后， 把 phoenix 的 客户 端 jar 包 (phoenix-4.1.0-incubating- 
SNAPSHOT -clientjar 和 phoenix-core-4.1.0-incubating-SNAPSHOTjar) 拷贝 到 eclipse 的 安装 目录 
的 plugins 文件 夹 下 。 

(2) 启动 eclipse， 新 建 一 个 Java 项 目 ， 名 称 是 Phoenix， 如 图 6-12 所 示 。 
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KA New Java Project 
Create a Java Project 


Create a Java project in the workspace or in an external location. 


Project name: | phoenix 


Use default location 


tion’ CAUsers\zhenghong\workspace\Phoenix Browse. 
JRE 
© Use an execution environmentJRE JavaSE-1.7 ~ 
OO Use a project specific JRE: jre7 
DO Use default JRE (currently ‘jre7") Configure JREs.. 
Project layout 
DO Use project folder as root for sources and class files 
(© Create separate folders for sources and class files nfigure def 
Working sets 
DAdd project to working sets 
Worxing sets; Select,.. 
® < Back Next> || Einish || Cancel 


图 6-12 创建 一 个 项 目 
(3) 新 建 一 个 Test 类 。 把 phoenix 的 客户 端的 jar 包 添 加 到 本 项 目下 ， 步 又 如 下 : 


本 DI0o 选中 新 建 的 项 目 ， 点 击 右键 ， 选 择 Build Path， 选 择 Configure Build Path， 出 现 如 
图 6-13 所 示 的 窗口 。 


| 一 号 
加 Properties for Phoenix | >x 
| pe frer text Java Build Path ON 
| Resource 
uader Source | Projects ™ Ubraries % Order and pqport 
Java Build Path JARs and class folders on the build Pa 
Java Code se 可 JRESyitem Ubrary DavasE171 Add JARs— 
J Compiler 
Java Editor Add External )ARs 
Javadoc Location Ad 
Project Facets te 
Project References Add Library.. 
Add Class Folder.. 
Server 
Task Repository Add Extermal Class Folder 
Task Togs 
Vaidation te 
Widtext es 
Mgrae MAR Fi 
四 » 
@ OK Cancel 


图 6-13 配置 库 文件 
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人 2 点 击 右 侧 的 Add External JARs， 在 弹出 窗口 中 ， 选 择 eclipse 安装 文件 的 plugin 的 文件 
夹 ， 选 择 刚刚 拷贝 到 此 文件 夹 下 的 phoenix-4.1.0-incubating-SNAPSHOTclientjar 和 
phoenix-core-4.1.0-incubating-SNAPSHOTjar， 然 后 点 击 OK， 这 个 phoenix 的 客户 端的 
Jar 包 就 被 添加 到 此 项 目下 了 ， 如 图 6-14 所 示 。 


kK Properties for Phoenix 
type filter text Java Build Path <“ 


Resource | rarics ] 
Builders | 跑 Source 忆 Projects 到 Libraries % Orderand Export 


Java Build Path JARs and class folders on the build path: 
Java Code Style B phoenix-4.1.0-incubating-SNAPSHOT-clientjar | | 
Java Compiler BG phoenix-core-4.1.0-incubating-SNAPSHOT.jar - 
Java Editor Bh JRE System Library UJavaSE-1.7] 

Javadoc Location Ad | 


Project Facets - 
Project References hddlibray. 


PonlDobmg sot Add Class Folder. 

Server -一 
Taske Repository [egd remal Cless Folder. 
Task Tags 
Validation Edit.. 


WikiText 


图 6-14 添加 外 部 库 
(4) 回 到 主 窗 口 ， 如 图 6-15 所 示 。 在 Testjava 中 写 代码 ， 具 体 代 码 如 下 所 示 : 


加 Java - Phoenix/src/Testjava - Eclipse EL 
Ele Edit Source Refactor Navigate Sesrch Project Bun Window Help 
EE brOrQr vor O07r IP RS 
ochage Bplorer I) Te 
Phoeni cy) CIE IK 
信守 publie elass rest 1 ed 
® (default package) ) 
DD Testjawm 


sm JRE System Uibrary lovas 
mh Referenced Libraries 
S phoenie-4.1.0-incubating-SNAPSHOT -chient jar 
3 phoenie Core 410incubating SNAPSHOT jor 


EOuline PET TT KE Wd:) 
© Test 
下 Problems ;© Javadoc e Declaration Ca) 
Oitems | 
Description Resource Path Location ™| 
| 
< > < » 


6-15 编写 代码 
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(5) 运行 Test 程序 。 在 这 个 程序 运行 成 功 后 ， 你 可 以 打开 phoenix 的 可 视 化 软件 ， 查 看 
HBase 里 面 的 TEST12345 表 的 信息 ， 如 图 6-16 所 示 。 到 此 为 止 ， 一 个 简单 的 Phoenix 程序 就 算 
开发 成 功 了 。 正 如 上 面 例子 中 所 展现 的 ， 我 们 完全 可 以 采用 传统 的 JDBC API 的 形式 编写 代码 。 


机 
| 区 了 | 晤 x + ele siel «| els slo ele 


6-16 查看 表 信息 


6.1.3 ”Phoenix SQL 工具 


Phoenix 还 支持 其 他 的 SQL 命令 行 工具 ， 比 如 : SQLLine。 在 Linux 的 master 节点 中 ， 进 入 
Phoenix 的 bin 目录 下 ， 按 照 如 图 6-17 所 示 ， 执 行 sqlline.py 命令 。 
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EE 


x ucis.py psqi-py sqinne.py 


Po ry I0% 
-root@master bin]#| 
FREAD-E ED 


Setting property: 5 ] 
dbc:phoenix:master ,slave3,slave4 none none org.apache.phoenix. jdbc.PhoenixDriver 
-onnecting to jdbc:phoenix:master ,slave3,slave4 
-5/01/22 18:24:52 WARN imp].MetricsConfig: Cannot locate configuration; tried hadoop-metrics2-phoenix,propert 
235,hadoop-metrics2. properties 
-onnected to: x (version 4.2) 
Jriver: Phoeni iver (version 4.2) 
MutoCOmmit status: true 
Iransaction isolation: TRANSACTIONLREAD_COMMITTED 
3uilding list of tables and columns for tab-completion (set fastconnect to True to skip)... 
70/70 (100%) Done 
Jone 


图 6-17 SQLLine 工具 


输入 一 个 SQL 建 表 语 句 ， 之 后 输入 “! tables” 命 令 ( 该 命令 列 出 所 有 表 的 信息 )， 如 图 
6-18 所 示 。 看 到 结果 就 表示 Phoenix 安装 成 功 。 


3aui1ding 1ist of tables and columns for tab-completion (set fastconnect to true to skip),.. 
?70/70 (100%) Done 
Jone 

sqlline version 1,1,2 
tH jobecphoenfenistar ,slaved,sTavet create table ye integer not nu11 primary key, mycolumn varchar) 


Yo rows affected (1.576 econds, 
2; jdbc:phoenix:master ,slave3,s laved, 


+ 二 
| TABLE_CAT | TABLE_SCHEM | TABLE NAME | TABLE_TYPE | REMARKS | TYPE_NAME | SELF_REFERENCING COL_NAME | | 
一 一 一 一 
null SYSTEN CATALOG SYSTEM TABLE | nu]] null null 
null SYSTEN SEQUENCE SYSTEM TABLE | nu]1 nll null 
null SYSTEN STATS 4 SYSTEM TABLE | null nu null 
null nul] TEST TABLE | null | null null | 
null mu 下 ST0 TABLE null null null 
-+ -一 + 一 -+ 一 -- + 一 二 二 


8 jdoc:phoenix:master ,slave3,slave4> 目 


图 6-18 创建 表 和 显示 表 信息 


在 SQLLine 下 ， 你 可 以 执行 describe 命令 来 查看 表 的 信息 ， 执 行 SQL 脚本 文件 来 批量 加 载 
数据 ， 执 行 SELECT 查询 语句 等 等 。 


6.1.4 ” Phoenix SQL 语法 


下 面 我 们 通过 一 些 示例 给 出 Phoenix SQL 语法 ， 用 于 通过 Phoenix 建立 数据 表 、 修 改 表 、 添 
加 数据 、 修 改 数据 、 删 除数 据 、 删 除 表 等 操作 。 


@ 新 建 一 张 Person 表 ， 含 有 IDCardNum ，Name，Age 三 个 字段 ，test 为 表 的 
Schema，SQL 语句 如 下 : 


@。 查询 这 个 新 表 的 数据 ， 验 证 表 的 结构 : 
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”对 表 进 行 插 入 操作 : 


注意 : 在 Phoenix 中 插入 的 语句 为 upsert ， 而 不 是 insert。 
@ ”对 表 添 加 一 列 sex (性 别 ) : 


后 一 个 SELECT 语句 是 验证 我 们 已 经 新 增 了 列 sex， 每 行 的 默认 值 为 null 。 
@ 更 新 表 数据 : 


Phoenix 中 不 存在 update 的 语法 关键 字 ， 而 是 upsert ， 功 能 上 替代 了 Inserttupdate， 如 果 该 
行 存在 ， 则 更 新 ， 和 否则 就 插入 。 语 句 如 下 : 


@ 复杂 查询 ， 支 持 where、group by、case when 等 复杂 的 查询 条 件 : 


@。 删除 数据 及 删除 表 ， 标 准 SQL 如 下 : 
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Hive 是 一 种 建立 在 Hadoop 之 上 的 数据 仓库 架构 。 它 提供 了 一 种 让 用 户 对 数据 描述 其 结构 
的 机 制 ， 支 持 用 户 对 存储 在 Hadoop 中 的 海量 数据 进行 查询 和 分 析 的 能 力 。Hive 简单 ， 容 易 上 
手 ， 它 提供 了 类 SQL 查询 语言 HQL。Hive 提供 了 统一 的 元 数据 管理 。 


6.2.1 Hive 架构 


Facebook 在 2010 ICDE 会 议 上 介绍 了 数据 仓库 Hive。Hive 存储 海量 数据 在 Hadoop 系统 
中 ， 提 供 了 一 套 类 数据 库 的 数据 存储 和 处 理 机 制 。 它 采用 类 SQL 语言 对 数据 进行 自动 化 管理 和 
处 理 ， 经 过 语句 解析 和 转换 ， 最 终生 成 基于 Hadoop 的 MapReduce 任务 ， 通 过 执行 这 些 任务 完 
成 数据 处 理 〈Hive 也 可 以 基于 Spark)。 

Hive 是 一 个 基于 Hadoop 的 数据 仓库 工具 。Hive 查询 有 一 定 的 延 时 ， 常 被 用 来 进行 静态 数 
据 分 析 和 挖掘 。 图 6-19 所 示 显 示 了 Hive 的 主要 组 件 。ODBC 和 JDBC 是 编程 接口 ， 豫 动 器 对 输 
入 进行 编译 、 优 化 和 执行 。MetaStore 〈 元 数据 存储 ) 是 一 个 独立 的 RDBMS， 默 认 是 内 置 的 
Apache Derby 数据 库 。 对 于 生产 系统 ， 推 荐 使 用 MySQL 或 其 他 RDBMS。Hive 会 在 其 中 保存 表 
模式 和 其 他 系统 元 数据 。 


Hive 


ODBC ||JDBc 
命令 行 工具 | Thrift 服 务 器 


MetaStore 


元 数据 存储 


驱动 器 
《编译 器 、 优 化 器 、 执 行 器 ) 


图 6-19 Hive 架构 


Hive 不 支持 行 级 别 的 更 新 ， 不 支持 实时 的 查询 响应 速度 。 如 果 需 要 这 些 功 能 ， 在 底层 可 以 
使 用 HBase (HBase 并 没有 提供 类 似 SQL 的 查询 语言 ， 所 以 Hive 可 以 和 HBase 结合 使 用 )。 因 
为 大 多 数 数据 仓库 应 用 程序 都 是 基于 SQL 的 RDBMS 实现 的 ， 所 以 Hive 降低 了 将 这 些 应 用 程序 
移植 到 Hadoop 上 的 困难 ， 减 少 了 开发 人 员 的 学 习 成 本 。 用 户 只 要 熟悉 SQL， 那 么 ， 使 用 
HiveQL 就 会 很 容易 。Hive 还 支持 用 户 自 定义 函数 ， 用 户 可 以 根据 自己 的 需求 来 实现 自己 的 函 
数 。 

Hive 提供 了 数据 的 查询 、 分 析 和 聚集 。 需 要 注意 的 是 ，Hive 没有 数据 的 插入 、 删 除 和 更 
新 ， 数 据 进 入 Hive 是 通过 装载 工具 完成 的 。 通 过 Hive， 可 以 将 在 HDFS 上 的 结构 化 的 数据 文件 
映射 为 一 张 数 据 库 表 。Hive 定义 了 一 个 类 似 于 SQL 的 查询 语言 HiveQL， 可 以 实现 复杂 查询 和 
Join， 能 够 将 用 户 编写 的 SQL 转化 为 相应 的 MapReduce 程序 ， 并 最 终 在 Hadoop 上 执行 。 还 
有 ，HiveQL 支持 在 查询 中 嵌入 MapReduce 脚本 。Hive 并 不 是 用 来 操作 OLTP 的 需求 ， 它 不 提供 
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实时 查询 或 行 级 的 更 新 。 它 非常 适合 于 对 那些 只 在 文件 末尾 添加 数据 的 大 型 数据 集 (如 : Web 
日 志 ) 进行 批 处 理 。Hive 支持 文本 文件 TextFile、SequenceFiles (包含 二 进 制 键 / 值 对 的 文本 文 
件 ) 和 RCFiles (Record Columnar Files， 采 用 列 数 据 库 的 模式 存储 一 个 表 的 列 )。 前 两 个 文件 格 
式 都 属于 行 存 储 方式 ， 后 一 个 是 列 式 存储 ， 能 更 快 地 进行 数据 装载 和 查询 。 这 对 于 数据 仓库 而 言 
是 非常 关键 的 。 比 如 : 每 天 大 约 有 超过 20TB 的 数据 上 传 到 Facebook 的 数据 仓库 ， 由 于 数据 加 
载 期 间 网 络 和 磁盘 流量 会 干扰 正常 的 查询 执行 ， 因 此 缩短 数据 加 载 时 间 是 非常 有 必要 的 。 另 外 ， 
为 了 满足 实时 性 的 网 站 请 求 和 支持 高 并 发 用 户 提交 查询 的 大 量 读 负载 ， 查 询 响应 时 间 也 是 非常 关 
键 的 ， 这 就 要 求 底层 存储 结构 能 够 随 着 查询 数量 的 增加 而 保持 高 速 的 查询 处 理 。 


6.2.2 安装 Hive 


用 户 可 以 通过 多 种 方式 来 安装 Hive。 一 种 方式 是 从 Hive 的 官方 网 站 http://hive.apache.org/ 下 
载 一 个 Hive 软件 压缩 包 。 然 后 ， 进 行 解 压 Hive， 并 添加 Hive 环境 变量 。 

Hive 主要 包含 三 个 部 分 。 在 SHIVE_HOME/lib 目录 下 有 很 多 JAR 文件 ， 每 个 JAR 文件 都 实 
现 了 Hive 功能 中 某 个 特定 的 部 分 。 在 SHIVE_HOME/bin 目录 下 包含 了 可 以 执行 Hive 服务 的 可 
执行 文件 ， 其 中 包括 了 Hive CLI。CLI 提供 交互 式 的 界面 输入 语句 或 脚本 。 在 
$HIVE_HOME/conf 目录 下 存放 了 Hive 的 配置 文件 。 

下 面 进入 conf 目录 ， 配 置 Hive。 依 据 hive-env.sh.template， 创 建 hive-env.sh 文件 ， 这 个 文件 
是 Hive 运行 环境 的 配置 文件 : 


然后 修改 hive-env.sh， 指 定 hive 配置 文件 的 路 径 ， 指 定 Hadoop 路 径 : 


接 下 来 启动 Hive。 在 CLI 命令 行 键入 hive， 则 显示 : 


输入 一 些 测试 语句 ， 比 如 建立 测试 表 test: 
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Hive 有 一 个 默认 的 数据 库 ， 叫 做 default。 如 果 没 有 指定 数据 库 ， 则 就 会 使 用 这 个 default 数 
据 库 。show databases 命令 就 可 以 显示 Hive 上 所 包含 的 数据 库 。 最 后 ， 我 们 看 一 下 hive-site.xml 
文件 ， 这 是 Hive 的 配置 文件 。 用 户 所 做 的 配置 修改 只 需要 在 这 个 文件 中 进行 即 可 。 


在 上 面 的 文件 中 ，javaxjdo.option.ConnectionURL 告诉 Hive 如 何 连接 metastore 服务 器 。 
databaseName 就 是 数据 库 名 称 。 正 如 上 面 提 到 的 ，metastore 是 元 数据 存储 组 件 ， 存 储 了 表 的 模 
式 和 分 区 信息 等 元 数据 信息 。 用 户 在 执行 create table 或 者 alter table 语句 时 会 指定 这 些 信息 。 数 
据 库 类 型 默认 为 Debry (Apache Derby 是 一 个 完全 用 Java 编写 的 数据 库 ， 所 以 可 以 跨 平 台 ， 但 
需要 在 JVM 中 运行 。Derby 是 一 个 Open Source 的 产品 ， 基 于 Apache License 2.0 分 发 )， 即 将 元 
数据 存储 在 Derby 数据 库 中 ， 也 是 Hive 默认 的 安装 方式 。Debry 提供 了 有 限 的 单 进程 的 服务 ， 
所 以 Debry 并 不 适合 于 生产 环境 。 在 实际 项 目 中 ， 我 们 一 般 采 用 MySQL。 
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6.2.3 Hive 和 MySQL 的 配置 


为 了 让 Hive 使 用 MySQL 作为 元 数据 存储 ， 我 们 首先 安装 MySQL。 如 果 你 使 用 Ubuntu， 
则 用 apt-get 安装 〈sudo apt-get install mysql-server)。 在 安装 之 后 ， 你 创建 数据 库 hive， 创 建 Hive 
用 户 ， 并 授权 : 


然后 修改 hive-site.xml， 指 定 MySQL 的 服务 器 和 端口 信息 ， 指 定数 据 库 名 称 。 比 如 : 
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我 们 还 需要 把 MySQL 的 驱动 程序 存放 在 SHIVE_HOME/lib 目录 下 。 在 正确 设置 驱动 和 配置 
之 后 ，Hive 就 会 把 元 数据 放 在 MySQL 上 了 。 下 面 就 可 以 启动 Hive， 并 建立 测试 表 test 了 : 


6.2.4 Hive CLI 

Hive 命令 行 工具 〈CLI) 是 和 Hive 交互 的 最 常用 的 方式 。 下 面 我 们 通过 几 个 例子 来 说 明 
CLI 的 使 用 方式 。 首 先 我 们 创建 一 个 普通 的 文本 文件 ， 里 面 只 有 一 行 数据 ， 存 储 了 一 个 字符 串 ， 
命令 如 下 : 


然后 我 们 建 一 张 hive 的 表 test， 其 中 -e 选项 就 是 让 hive CLI 在 执行 命令 后 立即 退出 : 


进入 hive， 接 下 来 加 载 数 据 : 


最 后 我 们 查询 如 下 : 


hive> select * from employee; 
OK 


le—tal "0.566 seconds, Fetched: 1 row(s) 
hive> 时 


类 似 RDBMS，Hive 还 支持 执行 SQL 脚本 文件 ， 比 如 : 


在 Hive CLI 上 可 以 直接 执行 shell 命令 ， 只 需要 在 命令 前 面 加 上 ! 即 可 : 


6.2.5 “Hive 数据 类 型 


Hive 支持 RDBMS 中 的 大 多 数 数据 类 型 ， 比 如 : TINYINT、SMALLINT、INT、BIGINT、 


115 


大 数据 技术 入 门 


BOOLEAN、FLOAT、DOUBLE、STRING、TIMESTAMP、BINARY 等 。 所 有 这 些 数据 类 型 都 
是 对 Java 中 的 接口 的 实现 ， 比 如 : STRING 类 型 实现 的 是 Java 中 的 String。 与 RDBMS 不 同 的 
是 ，Hive 还 支持 集合 数据 类 型 ， 比 如 : STRUCT (与 C 语言 的 struct 类 似 ， 可 通过 “点 ”名 称 来 
访问 。 比 如 : STRUCT (street STRING, city String)， 那 么 ， 列 名 .street 就 是 第 一 个 元 素 )、MAP 
(一 组 键 - 值 对 的 集合 )、ARRAY (数组 )。 我 们 来 看 一 个 例子 : 


其 中 empID 是 员工 编号 ， 是 一 个 整数 。name 是 姓名 ， 是 一 个 字符 串 。salary 是 工资 ， 是 一 
个 浮 点 数 。skills 就 是 该 员工 的 技能 ， 是 一 个 字符 串 数组 (如 果 用 SELECT 语句 查询 这 个 列 ， 则 返 
回 的 数组 会 以 [“java”,”C++”] 的 JSON 格式 显示 )。educations 是 该 员工 的 教育 背景 ， 是 一 个 
由 键 - 值 对 构成 的 map〔( 如 果 用 SELECT 语句 查询 这 个 列 ， 返 回 的 结果 也 是 JSON 格式 ， 在} 之 
内 以 逗号 分 隔 “ 键 : 值 ” 对 )， 记 录 了 年 份 (用 字符 串 表 示 〉 和 毕业 学 校 之 间 的 对 应 关系 。 
address 是 地 址 ， 使 用 STRUCT (如 果 使 用 SELECT 查询 ， 返 回 的 结果 也 是 JSON， 类 似 MAP 的 
返回 格式 )， 每 个 域 都 有 一 个 名 字 和 类 型 。 针 对 SELECT 查询 ， 我 们 给 出 以 下 几 个 例子 : 


正如 上 面 所 列 出 的 ， 对 于 数组 列 ， 同 JAVA 一 样 ， 数 组 索引 从 0 开始 。 对 于 MAP 列 ， 可 以 
指定 键 值 ， 而 对 于 STRUCT， 可 以 用 “点 ”符号 。 

Hive 可 以 把 表 的 数据 放 到 文本 文件 上 ， 或 者 从 文本 文件 上 读 取 表 的 数据 ， 所 以 ， 文 件 的 格式 
化 是 需要 的 ， 即 : 怎么 分 隔行 记录 和 列 。 我 们 所 熟悉 的 ， 用 逗号 或 者 制 表 符 分 隔 的 模式 ，Hive 也 
支持 。 但 是 ，Hive 默认 使 用 几 个 控制 符号 ， 因 为 这 些 符号 在 列 值 中 很 少 出 现 ， 如 表 6-1 所 示 。 


表 6-1 Hive 默认 使 用 的 控制 符号 


mn 对 于 文本 文件 来 说 ， 每 行 就 是 一 条 记录 ， 因 此 换行 符 可 以 分 割 行 记录 
| ^A (CtrltA) | 用 于 分 隔 列 ， 在 CREATE TABLE 语句 中 可 以 使 用 八进制 编码 \001 表示 | 
允 3 用 于 分 隔 ARRAY 或 STRUCT 中 的 元 素 ,或 用 于 MAP 中 键 - 值 对 之 间 的 分 隔 ， 在 CREATE 
TABLE 语句 中 可 以 使 用 八进制 编码 \002 表示 


| < 用 于 MAP 中 键 和 信之 间 的 分 隔 ， 在 CREATE TABLE 语句 中 可 以 使 用 八进制 篇 加 003 表示 | 
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在 CREATE TABLE 上 可 以 指定 分 隔 符 ， 比 如 : 


在 上 面 的 语句 中 ，“FIELDS TERMINATED BY "001” 指 定 了 使 用 ^A 作为 列 的 分 隔 符 ， 而 
“COLLECTION ITEMS TERMINIATED BY "\002”” 指 定 了 使 用 ^B 作为 集合 元 素 之 间 的 分 隔 符 ， 
“MAP KEYS TERMINATED BY "003?” 指 定 了 使 用 ^C 作为 MAP 的 键 和 值 之 间 的 分 隔 符 。 虽 

然 用 户 可 以 明确 指定 这 些 子 句 ， 但 是 ， 在 大 多 数 情况 下 ， 默 认 的 分 隔 符 就 够 用 了 。 需 要 特别 指出 
的 是 ， 如 果 不 是 文本 格式 ， 而 是 CSV 格式 〈 值 是 用 逗号 分 隔 的 ) 和 TSYV 格式 〈 值 是 用 制 表 键 分 
隔 的 )， 这 些 格式 的 文件 中 文件 头 包含 有 列 名 ， 列 值 字符 串 是 用 引号 包含 的 。 

Hive 的 这 种 文件 读 取 数据 的 模式 非常 适合 处 理由 ETL 工具 所 产生 的 数据 文件 。 那 么 ， 如 果 
文件 内 容 不 匹配 表 的 模式 ，Hive 会 怎么 办 呢 ? 如 果 文 件 中 每 行 记录 中 的 列 〈 字 段 ) 个 数 少 于 对 
应 的 模式 中 定义 的 列 个 数 ， 那 么 ，Hive 结果 中 会 有 很 多 null 值 。 如 果 列 是 数值 型 的 ， 而 文件 中 
的 数据 时 非 数值 型 的 ， 则 Hive 将 处 理 为 null 值 。 

Hive 支持 用 户 自 定义 函数 UDF)， 可 以 和 内 置 的 函数 一 样 使 用 。SHOW FUNCTIONS 命令 
可 以 列 出 Hive 中 所 有 的 函数 名 称 ， 包 括 内 置 的 和 用 户 自 定义 的 函数 。DESCRIBE FUNCTION 命 
令 可 以 显示 函数 的 信息 。 下 面 来 看 一 个 UDF 的 例子 。 这 个 UDF 的 输入 值 是 一 个 日 期 ， 输 出 结 
果 是 该 日 期 所 对 应 的 星座 。 对 于 UDF， 我 们 首先 编写 相对 应 的 JAVA 代码 ， 代 码 如 下 所 示 。 
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将 上 述 代码 编译 并 打包 到 一 个 JAR 文件 中 ， 并 将 这 个 JAR 文件 加 入 到 类 路 径 下 。 而 后 ， 定 义 
这 个 UDF 函数 。 最 后 就 可 以 像 使 用 内 置 函数 一 样 使 用 它 了 。 比 如 : 


删除 UDF 的 命令 是 DROP TEMPORARY FUNCTION。 除 了 继承 UDF 类 来 创建 自 定义 的 函 
数 之 外 ， 我 们 也 可 以 继承 GenericUDF 类 。GenericUDF 能 够 支持 更 复杂 的 输入 处 理 ， 具 体内 
容 ， 可 参考 Hive 文档 。 


6.2.6 HiveQL DDL 
除了 default 数据 库 之 外 ，Hive 会 为 每 个 数据 库 创建 一 个 目录 ， 数 据 库 中 的 表 将 会 以 这 个 数 
据 库 目录 的 子 目 录 形 式 存储 。 比 如 : 


那么 ，Hive 将 会 创建 一 个 目录 /user/hive/warehouse/yunsheng.db 。 使 用 DESCRIBE 
DATABASE yunsheng 语句 就 会 显示 这 个 数据 库 所 在 的 目录 信息 。 使 用 USE yunsheng 命令 就 可 
以 将 yunsheng 数据 库 设 置 为 当前 的 工作 数据 库 。 然 后 ，SHOW TABLES 就 会 显示 这 个 数据 库 下 
的 所 有 表 。DROP DATABASE yunsheng 就 可 以 删除 数据 库 。 默 认 情况 下 ，Hive 不 允许 删除 一 个 
包含 表 的 数据 库 ， 用 户 要 么 先 删除 表 ， 然 后 再 删除 数据 库 ， 或 者 在 删除 命令 的 后 面 添加 
CASCADE 关键 字 ， 这 样 Hive 就 会 先 删除 表 ， 然 后 再 删除 数据 库 了 ， 比 如 “DROP DATABASE 
yunsheng CASCADE”。 

在 前 面 的 章节 中 ， 我 们 使 用 了 CREATE TABLE 创建 表 。 在 创建 表 的 时 候 ，Hive 会 自动 增加 
两 个 表 属 性 : 一 个 是 last modified by 〈 保 存 着 最 后 修改 这 个 表 的 用 户 名 )， 一 个 是 
last_ modified time 〈 保 存 着 最 后 修改 这 个 表 的 时 间 )。 在 创建 表 时 ， 我 们 可 以 为 表 指 定 存储 路 
径 ， 比 如 : 
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在 创建 表 之 后 ， 可 以 使 用 SHOW TABLES 来 列举 所 有 的 表 。 如 果 想 要 看 某 个 列 的 信息 ， 则 
可 以 使 用 DESCRIBE yunsheng.contracts.name 命令 。Hive 还 支持 创建 视图 。 

Hive 表 的 管理 方式 有 两 种 : Managed Tables 〈 内 部 表 ) 和 External Tables (外 部 表 )。 上 面 
所 创建 的 表 都 是 内 部 表 。Hive 创建 内 部 表 时 ， 会 将 数据 移动 到 数据 仓库 指向 的 路 径 。 若 创建 外 
部 表 ， 仅 仅 只 是 记录 数据 所 在 的 位 置 (可 以 是 HDFS 目录 或 者 本 地 目录 )， 不 对 数据 的 位 置 做 任 
何 改变 。 在 删除 表 的 时 候 ， 内 部 表 的 元 数据 和 数据 都 会 被 一 起 删除 ， 而 外 部 表 仅仅 只 是 改变 元 数 
据 ， 不 对 数据 进行 任何 操作 。 所 以 使 用 外 部 表 相对 更 加 安全 ， 数 据 组 织 也 更 加 灵活 ， 方 便 共享 数 
据 。 下 面 我 们 来 看 一 下 外 部 表 的 创建 。 假 定 我 们 有 以 下 两 个 文件 : 


下 面 创建 外 部 表 : 


关键 字 EXTERNAL 告诉 Hive 这 是 个 外 部 表 ， 后 面 的 LOCATION 告诉 Hive 数据 位 于 哪个 
路 径 下 。 当 删除 表 时 ， 只 会 从 Hive 上 删除 表 的 元 数据 信息 (删除 链接 信息 )， 上 述 路 径 上 的 数据 
文件 不 会 被 删除 。 在 DESCRIBE EXTENDED test 语句 的 输出 结果 中 会 显示 是 内 部 表 还 是 外 部 
表 。 

Hive 有 分 区 表 的 概念 ， 这 能 提高 数据 库 性 能 ， 主 要 是 加 快 查询 。 我 们 来 看 一 个 例子 : 


在 上 述 列子 中 ， 我 们 让 Hive 先 按照 state (省 ) 再 按照 city (市 来 对 数据 进行 分 区 。 那 
么 ， 在 这 个 表 的 目录 下 ， 将 会 出 现 反 映 分 区 的 子 目 录 ， 比 如 : 
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每 个 城市 的 文件 夹 下 包含 着 这 个 城市 的 员工 信息 。SHOW PARTITIONS employees 命令 可 以 
查看 表 中 存在 的 所 有 分 区 。 上 述 分 区 字段 的 使 用 方法 类 似 普通 的 字段 〈 即 : 分 区 字段 可 以 作为 
where 条 件 )， 比 如 : 


分 区 的 主要 好 处 是 加 快 查询 速度 。 比 如 ， 上 述 的 查询 中 ， 我 们 只 需要 查询 一 个 目录 下 的 内 容 
即 可 ， 这 对 于 大 数据 集 来 说 ， 能 够 极 大 的 提高 查询 性 能 。 我 们 还 可 以 在 使 用 LOAD 命令 加 载 数 
据 时 指定 分 区 信息 ， 外 部 表 也 可 以 有 分 区 。 

大 多 数 的 表 属 性 可 以 通过 ALTER TABLE 语句 来 进行 修改 。 比 如 : 


在 传统 的 RDBMS 中 ， 为 了 能 够 存储 大 量 的 数据 ， 经 常 按 月 建立 表 ， 这 样 数据 就 可 以 分 散 
在 不 同 的 月 表 中 了 。Hive 的 分 区 表 可 以 获得 类 似 的 好 处 ， 比 如 : 


Hive 需要 进行 全 表 扫 描 来 执行 查询 。 通 过 创建 多 个 分 区 就 可 以 优化 查询 。 需 要 注意 的 是 ， 
一 个 理想 的 分 区 设计 不 应 该 产生 太 多 的 分 区 和 文件 夹 目录 ， 并 且 每 个 目录 下 的 文件 应 该 足够 得 
大 。 这 是 因为 ，HDFS 是 用 于 存储 海量 的 大 文件 ， 而 不 是 海量 的 小 文件 。 除 了 分 区 的 功能 ，Hive 
还 提供 了 buckets 〈 分 桶 ) 的 功能 ， 能 将 数据 集 分 解 成 更 容易 管理 的 若干 部 分 。 有 具体 内 容 ， 可 参 
考 Hive 网 站 。 

Hive 没有 主键 或 自 增 键 。Hive 支持 有 限 的 索引 功能 ， 可 以 对 一 些 字段 建立 索引 来 加 速 查询 
操作 。 一 张 表 的 索引 数据 存储 在 另外 一 张 表 中 。 


6.2.7 HiveQL DML 
对 于 SQL 而 言 ， DML 就 是 增删 改 查 的 SQL 语句 。 但 是 ，Hive 没有 行 级 别 的 数据 插入 、 数 
据 更 新 和 数据 删除 操作 ， 往 表 中 装载 数据 的 唯一 途径 就 是 使 用 LOAD 命令 来 大 量 地 数据 装载 。 
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比如 : 


如 果 使 用 了 LOCAL 关键 字 ， 那 么 ， 这 个 路 径 应 该 为 本 地 文件 系统 路 径 。 如 果 没 有 这 个 
LOCAL 关键 字 ， 那 么 这 个 路 径 就 是 分 布 式 文件 系统 中 的 路 径 。 
Hive 支持 INSERT..SELECT 语句 ， 通 过 查询 语句 向 表 中 插入 数据 。 比 如 : 


上 述 的 INTO 可 替换 为 OVERWRITE， 这 样 Hive 就 会 覆盖 之 前 已 经 存在 的 内 容 。 
INSERT.SELECT 语句 也 可 以 放 在 CREATE TABLE 语句 中 ， 从 而 在 一 个 语句 中 完成 创建 表 并 将 
查询 结果 插入 这 个 表 中 ， 比 如 : 


Hive 导出 数据 的 方式 有 多 种 。 比 如 : 


在 SELECT 语句 中 ， 常 见 的 数学 函数 (如 : abs0)、 聚 合 函数 〈 如 : count0、sum0、avg0 
等 )、 字 符 串 函数 〈 如 : concat、locate、substr 等 ) 都 可 以 使 用 。 如 果 想 要 限制 返回 的 行 数 ， 则 
可 以 使 用 LIMIT 语句 。SELECT 还 支持 嵌 套 SELECT 语句 和 CASE WHEN 句 式 。WHERE 子 句 
支持 常规 的 操作 符 〈 如 : =、>、LIKE、IS NULL 等 )， 也 支持 GROUP BY、HAVING、JOIN、 
ORDER BY 等 。 


Hive 提供 了 EXPLAIN 功能 ， 解 释 Hive 如 何 将 查询 转化 成 MapReduce 任务 的 。 比 如 : 


在 执行 上 述 语句 时 ，Hive 会 打印 出 语法 树 ， 表 明 如 何 将 查询 解析 成 token 和 literal 的 。Hive 
也 会 打印 出 多 个 stage (一 个 Hive 任务 包含 一 个 或 多 个 stage)， 不 同 的 stage 之 间 可 能 存在 着 依 
赖 关系 ， 一 个 stage 可 以 是 一 个 MapReduce 任务 或 是 其 他 的 操作 。EXPLAIN 返回 的 结果 中 可 能 
还 包含 了 reduce 操作 树 (Reduce Operator Tree )。 当 执行 具有 reduce 过 程 的 Hive 查询 (如 : 带 
有 GROUP BY 子 名 的 语句 ) 时 ，CLI 控制 台 会 打印 出 调 优 后 的 reducer 个 数 。Hive 是 按照 输入 
的 数据 量 大 小 来 确定 reducer 个 数 的 。 你 可 以 使 用 “df -count” 命 令 来 计算 输入 量 的 大 小 ， 这 个 
命令 同 Linux 中 的 “du -s” 命 令 类 似 ， 可 以 计算 出 指定 目录 下 所 有 数据 的 总 大 小 。Hive 有 一 个 
参数 hive.exec.reducers.bytes.perreducer， 其 设置 了 一 个 reducer 处 理 的 数据 量 ， 默 认为 1GB。 而 
hive.exec.reducers.max 则 指定 了 最 大 的 reducer 个 数 。 
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6.2.8 ”Hive 编程 


我 们 使 用 JDBC 开发 Hive 程序 ， 这 和 传统 的 JDBC 开发 没有 太 大 的 区 别 。 要 注意 的 是 ， 
在 使 用 JDBC 开发 Hive 时 ， 首 先 需要 开启 Hive 的 远程 服务 接口 。 使 用 下 面 命令 进行 开启 : 


HiveServer 也 叫 HiveThrift， 它 允许 通过 指定 端口 访问 Hive。Thrift 是 一 个 软件 框架 ， 支 持 
Java、C++ 等 编程 语言 ， 通 过 编程 的 方式 远程 访问 Hive。 下 面 是 Hive 的 一 个 示例 程序 : 
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从 上 看 出 ，Hive 的 编程 同一 般 的 JDBC 编程 没什么 区 别 。 


6.2.9 HBase 集成 


HBase 与 Hive 都 是 架构 在 HDFS 系统 之 上 的 Hadoop 生态 圈 的 组 件 ， 利 用 HDFS 作为 底层 
存储 。 我 们 把 HBase 看 作 分 布 式 数据 库 ， 把 Hive 作为 分 布 式 数据 仓库 。Hive 的 适用 场景 是 非 实 
时 、 面 向 批 处 理 的 工作 ， 比 如 : 海量 数据 的 批量 处 理 、 统 计 查询 和 计算 分 析 。HBase 的 适用 场景 
是 实时 处 理工 作 ， 它 作为 NoSQL 数据 库 ， 设 计数 据 库 的 Schema， 处 理 高 并 发 的 实时 快速 查询 
和 插入 。 我 们 可 以 将 HBase 和 Hive 结合 起 来 使 用 。 一 种 方式 就 是 让 HBase 作 实时 处 理 ， 然 后 将 
HBase 数据 导入 到 HDFS 文件 上 ， 最 后 通过 Hive 来 做 数据 分 析 。 这 是 因为 HBase 可 能 会 对 底层 
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多 个 文件 合并 ， 而 从 HDFS 中 访问 是 顺序 WO， 所 以 直接 让 Hive 操纵 HDFS 上 的 海量 数据 分 析 
会 更 快 。 还 有 ，Hive 采用 了 类 SQL 的 查询 语言 HQL， 它 会 自动 转化 成 MapReduce 程序 ， 提 高 
工程 师 的 开发 效率 ， 同 时 系统 易 扩展 和 维护 。 

还 有 一 种 更 加 紧密 的 合作 方式 ， 在 Hive 上 直接 访问 HBase 表 。 我 们 只 需要 在 Hive 上 创建 
一 个 指向 HBase 表 的 外 部 表 即 可 。 比 如 : 


我 们 首先 解释 一 下 上 述 CREATE 语句 中 出 现 的 几 个 关键 字 : 


@ HBaseStorageHandler。Hadoop 有 一 个 InputFormat 抽象 接口 类 ， 可 以 将 来 自 不 同 数据 源 
的 数据 格式 化 为 job 的 输入 格式 ; 有 一 个 OutputFormat 抽象 接口 类 ， 用 于 获得 一 个 job 
输出 ， 以 写 入 到 目标 实体 上 。InputFormat 和 OutputFromat 可 以 是 文件 ， 也 可 以 是 
RDBMS 和 HBase 等 。HiveStorageHandler 是 Hive 用 于 连接 HBase 的 接口 ， 里 面 有 定 
制 的 InputFromat 、 OutputFormat 和 SerDe 。 HBaseStoragehandler 实现 了 
HiveStorageHandler 接口 。 

@ WITH SERDEPROPERTIES。Hive 支持 不 同 格式 的 文件 来 存储 数据 。 默认 情况 下 是 
TEXTFILE( 文 本 文件 )。SerDe 也 是 一 种 格式 ， 是 序列 化 / 反 序列 化 的 简写 。 


Hive 与 HBase 的 整合 功能 的 实现 是 利用 两 者 本 身 对 外 的 API 接口 互相 进行 通信 ， 相 互通 信 
主要 是 依靠 hive_hbase-handlerjar 工具 类 ， 结构 如 图 6-20 所 示 。 


Hive 


ODBc || JDBc 
命令 行 工 具 |‖ Thrift 服 务 器 


MetaStore 
元 数据 存储 


驱动 器 | 
(编译 器 、 优 化 器 、 执 行 器 ) 客户 端 应 用 Zookeeper HMaster 


HRegionServer 


= 


图 6-20 Hive 与 HBase 集 成 


在 Hive 的 安装 目录 的 lib 子 目录 中 ， 已 经 存在 了 HBase 和 ZooKeeper 的 相关 Jar， 但 是 版 本 
可 能 不 是 很 一 致 ， 需 要 把 HBase 安装 目录 中 的 相关 Jar 拷贝 到 Hive 的 lib 下面。 重新 编译 “hive- 
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hbase-handler” 这 个 Jar 包 。 最 后 确保 Hive 运行 正常 : 


hive> Show tables; 
RK 


ol 
Time taken: 8.418 seconds 
hive> create 


create create_union( 
hive> create TABLE my(id INT,name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t'; 
K 


ol 

Time taken: 1.872 seconds 
hive> show tables; 

OK 


TYne taken: 0.161 seconds, Fetched: 1 row(s) 
hive> 由 


6.2.10 XML 和 JSON 数据 
Hive 包含 了 XPath 相关 的 UDF， 可 以 从 XML 中 提取 数据 。 比 如 : 


具体 函数 如 表 6-2 所 示 。 


表 6-2 XPath 函数 
UDF 名 称 说 明 


xpath doublexpat number 
JSON 是 一 种 轻 量 级 的 数据 格式 ， 结 构 灵 活 ， 支 持 嵌 套 ， 非 常 易于 阅读 和 编写 ， 而 且 主流 的 


编程 语言 都 提供 相应 的 框架 或 类 库 支 持 与 JSON 数据 的 交互 。Hive 可 以 查询 JSON 格式 的 数据 。 
我 们 可 以 创建 一 个 外 部 表 来 指向 JSON 数据 ， 比 如 : 


要 7 
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上 例 中 的 属性 用 于 将 JSON 文档 和 表 的 列 对 应 起 来 。 一 旦 定义 好 之 后 ， 用 户 就 可 以 执行 查 
询 ， 而 不 用 关心 查询 是 如 何 从 JSON 中 获取 数据 的 。 


6.2.11 使 用 Tez 


Tez 是 Apache 最 新 开源 的 支持 DAG 作业 的 计算 框架 ， 它 可 以 将 多 个 有 依赖 的 作业 转换 为 一 
个 作业 ， 从 而 大 幅 提 升 DAG 作业 的 性 能 。 它 直接 源 于 MapReduce 框架 ， 核 心思 想 是 将 Map 和 
Reduce 两 个 操作 进一步 拆 分 ， 即 Map 被 拆 分 成 Input、Processor、Sort、Merge 和 Output， 
Reduce 被 拆 分 成 Input、Shuffle、Sort、Merge、Processor 和 Output 等 ， 这 些 分 解 后 的 各 个 操作 
可 以 任意 灵活 组 合 ， 产 生 新 的 操作 ， 这 些 操作 经 过 一 些 控制 程序 组 装 后 ， 可 形成 一 个 大 的 DAG 
作业 。 总 结 起 来 ，Tez 运行 在 YARN 之 上 ， 适 用 于 DAG (有 向 图 ) 应 用 ( 同 Impala、Dremel 和 
Drill 一 样 ， 可 用 于 替换 Hive/Pig 等 )。Hive on Tez 是 以 Tez 为 计算 框架 的 hive 数据 分 析 系 统 。 

通过 Tez 我 们 可 以 构建 性 能 更 快 、 扩 展 性 更 好 的 应 用 程序 。Hadoop 传统 上 是 一 个 海量 数据 
批 处 理 平 台 。 但 是 ， 很 多 场景 需要 近乎 实时 的 查询 处 理性 能 。 还 有 一 些 工作 则 不 太 适 合 
MapReduce， 例 如 机 器 学 习 。Tez 的 目的 就 是 帮助 Hadoop 处 理 这 些 用 例 场 景 。Tez 项 目的 目标 是 
支持 高 度 定制 化 ， 满 足 各 种 用 例 的 需要 ， 让 人 们 不 必 借助 其 他 的 外 部 方式 就 能 完成 自己 的 工作 。 
如 果 Hive 和 Pig 项 目 使 用 Tez 而 不 是 MapReduce 作为 其 数据 处 理 的 骨干 ， 那 么 将 会 显著 提升 
它们 的 响应 时 间 。Tez 构建 在 YARN 之 上 ， 后 者 是 Hadoop 所 使 用 的 新 资源 管理 框架 。 

为 了 在 Hive 上 使 用 Tez， 你 只 需要 设置 如 下 参数 : 


下 面 我 们 做 两 个 简单 的 测试 ， 一 个 是 在 MapReduce 上 执行 统计 计算 ， 另 一 个 是 在 Tez 上 ， 
我 们 最 终 发 现 Hive 在 Tez 上 的 性 能 有 很 大 提升 。 
在 MapReduce 上 测试 : 
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6.3 Pig 


Pig 最 初 由 Yahoo 于 2006 年 开发 ， 当 时 是 为 了 能 够 在 大 数据 集 上 创建 和 执行 map-reduce 任 
务 。 在 2007 年 ，Pig 成 为 Apache Software Foundation 的 一 员 。 它 在 MapReduce 框架 上 实现 了 
一 套 shell 脚本 ， 在 Pig 中 称 之 为 Pig Latin。Pig 将 脚本 转换 为 MapReduce 任务 ， 最 后 在 Hadoop 
上 执行 。 

假定 某 用 户 的 输入 数据 来 自 多 个 源 ， 而 用 户 需 要 进行 一 组 复杂 的 转换 来 生成 一 个 或 多 个 输出 
数据 集 。 如 果 使 用 Hive， 则 用 户 可 能 需要 创建 临时 表 和 使 用 复杂 的 查询 来 完成 。Pig 是 一 种 过 程 
语言 ， 类 似 于 存储 过 程 ， 是 对 于 输入 的 一 步 步 操 作 ， 其 中 每 一 步 都 是 对 数据 的 一 个 简单 的 变换 。 
在 Pig 脚本 中 ,我 们 可 以 对 加 载 进 来 的 数据 进行 排序 、 过 滤 、 求 和 、 分 组 (group by)、 关 联 ， 
Pig 也 可 以 调用 用 户 自 定义 函数 对 数据 集 进行 操作 。Pig 适合 即时 性 的 数据 处 理 需 求 ， 可 以 通过 
Pig 很 快 写 一 个 脚本 开始 运行 处 理 ， 而 不 需要 创建 表 等 相关 的 事先 准备 工作 。、 

Pig 的 使 用 主要 是 数据 的 ETL。 让 我 们 看 一 个 简单 的 Pig 示例 。 假 定 我 们 要 在 大 型 数据 集 
中 搜索 满足 某 个 给 定 搜索 条 件 的 记录 (类似 UNIX 中 的 grep 命令 )。Pig 的 代码 如 下 : 


在 上 面 代码 中 ， 第 一 行 是 装载 数据 集 ， 第 二 行 是 用 一 个 正则 表达 式 来 筛选 该 数据 集 ， 即 查找 
字符 序列 WARN。 最 后 是 将 筛选 结果 存储 在 一 个 名 为 wamings 的 新 文件 中 。 这 个 简单 的 脚本 实 
现 了 一 个 简单 的 流 ， 但 是 ， 如 果 直接 在 传统 的 MapReduce 模型 中 实现 它 ， 则 需要 增加 大 量 的 代 
码 。 
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6.3.1 ”Pig 语法 


Pig Latin 语言 和 传统 的 数据 库 语言 很 相似 ， 但 是 Pig Latin 更 侧重 于 数据 查询 ， 而 不 是 数据 
的 修改 和 删除 等 操作 。Pig 语句 通常 按照 如 下 的 流程 来 编写 : 
@ ”通过 LOAD 语句 从 文件 系统 读 取 数 据 ; 
@ ”通过 一 系列 “转换 ”语句 对 数据 进行 处 理 ; 
@ ”通过 一 条 STORE 语句 把 处 理 结果 输出 到 文件 系统 中 ， 或 者 使 用 DUMP 语句 把 处 理 结 
果 输出 到 屏幕 上 。 


Pig 的 数据 类 型 分 为 两 类 ， 分 别 为 简单 类 型 和 复杂 类 型 。 简 单 类 型 包括 : int、long、float、 
double 、chararray 、bytearray 、 boolean 、datetime 、biginteger 、bigdecimal 。 复 杂 类 型 包括 : 
tuple、bag、map。chararray 相当 于 字符 串 String; bytearray 相当 于 字 节 数组 。tuple 是 一 个 有 序 
的 字段 的 集合 ， 可 以 理解 为 元 组 ， 例 如 (100，“Android”,50)。bag 是 tuple 的 集合 ， 例 如 {(100， 

“Android”, 50), (101，“iOS”,60)}。map 是 “ 键 - 值 ”对 的 集合 ， 例 如 [name#zhenghong, age#38， 
healthy index#195]。 

下 面 我 们 给 出 Pig 的 一 些 常见 用 法 。 为 了 方便 读者 的 理解 ， 我 们 同时 给 出 MySQL 的 语法 。 


1. 从 文件 导入 数据 
(1) MySQL (MySQL 需要 先 创建 表 ) 


(2) Pig 


2. 查 句 整 张 表 
(1) MySQL 


(2) Pig 


DUMP 命令 用 于 在 屏幕 上 显示 数据 。 
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3. 查 和 多 前 50 行 
(1) Mysql 


(2) Pig 


4. 查询 某 些 列 
(1) Mysql 


(2) Pig 


5. 排序 
(1) Mysql 


(2) Pig 


6. 条 件 查询 
(1) Mysql 


(2) Pig 


7. 内 连接 ( Inner Join ) 
(1) Mysql 
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(2) Pig 


8. 左 外 连接 ( Left OUTER Join ) 
(1) Mysql 


(2) Pig 


9. 右 外 连接 ( Right OUTER Join ) 
(1) Mysql 


(2) Pig 


10. 分 组 (GROUP BY ) 
(1) Mysql 


(2) Pig 


GROUP BY 是 根据 某 个 或 某 些 字 段 进行 分 组 ， 只 根据 一 个 字段 进行 分 组 ， 比 较 简单 。 如 果 
想 要 根据 两 个 字段 分 组 ， 则 可 以 将 两 个 字段 构造 成 一 个 tuple， 然 后 进行 分 组 。 


11. 统计 ( COUNT ) 
(1) Mysql 
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(2) Pig 


FOREACH 操作 可 以 针对 一 个 数据 集 进 行 迭 代 处 理 操作 ， 生 成 一 个 新 的 数据 集 。 


12. 查询 去 重 ( DISTINCT ) 
(1) MYSQL 


(2) Pig 


在 进行 数据 过 滤 时 ， 建 议 尽早 使 用 foreach generate 将 多 余 的 数据 过 滤 掉 ， 减 少数 据 交换 。 


6.3.2 Pig 和 Hive 的 使 用 场景 比较 


很 多 的 项 目 都 想 用 Hadoop 作为 数据 存储 ， 而 以 SQL 构建 前 端 查询 。 为 了 简化 Hadoop 的 使 
用 ， 出 现 了 类 似 于 SQL 的 Pig 和 Hive。 而 用 户 在 进行 大 数据 处 理 的 时 候 ， 使 用 这 些 工 具 可 以 避 
免 复杂 的 Java 编码 ， 但 在 使 用 之 前 很 重要 的 一 点 是 了 解 工 具 之 间 的 区 别 ， 以 便 在 不 同 的 用 例 中 
使 用 最 优化 的 工具 。 选 对 平台 和 语言 对 于 数据 的 提取 、 处 理 和 分 析 都 起 着 至 关 重要 的 作用 。 

SQL 程序 员 们 需要 这 样 一 种 编程 语言 : 既 利于 SQL 程序 员 们 学 习 同 时 又 能 够 轻松 应 对 大 型 
数据 集 。Pig 很 好 地 解决 了 上 面 提 到 的 问题 ， 同 时 也 提供 了 较 好 的 扩展 性 和 性 能 优化 。Apache 
Pig 对 Multi-query 的 支持 减少 了 数据 检索 循环 的 次 数 。Pig 支持 map、tuple 和 bag 这 样 的 复合 数 
据 类 型 以 及 常见 的 数据 操作 如 筛选 、 排 序 和 联合 查询 。 这 些 优势 让 Pig 在 全 球 范围 内 都 得 到 了 广 
泛 的 应 用 。Pig 简便 的 特点 也 是 雅虎 和 Twitter 使 用 它 的 原因 之 一 。 

尽管 Pig 性 能 强劲 ， 如 果 要 使 用 它 ， 开 发 人 员 则 必须 掌握 SQL 之 外 的 新 知识 ， 而 Hive 则 与 
SQL 非常 相像 。 尽 管 Hive 查询 语言 HQL 的 命令 有 所 局 限 ， 它 还 是 取得 了 一 定 的 成 功 。Hive 为 
MapReduce 提供 了 优秀 的 开源 实现 ， 它 在 分 布 式 数据 处 理 的 同时 避免 了 SQL 对 于 数据 存储 的 局 
限 。 

下 面 我 们 就 把 Pig、Hive 和 SQL 两 两 进行 对 比 以 便 了 解 它们 各 自 所 适用 的 情况 。 


® PigvsSQL 
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与 单纯 的 SQL 相 比 ，Pig Latin 在 声明 式 执行 计划 、ETL 流程 和 管道 的 修改 上 则 有 着 优势 。 
整体 上 来 看 ，SQL 是 一 门 声明 式 语言 ， 而 PigLatin 属于 过 程式 语言 。 在 SQL 中 我 们 指定 需要 完 
成 的 任务 ， 而 在 Pig 中 我 们 则 指定 任务 完成 的 方式 。Pig 脚本 其 实 都 是 转换 成 MapReduce 任务 来 
执行 的 ， 不 过 Pig 脚本 会 比 对 应 的 MapReduce 任务 简短 很 多 ， 所 以 开发 的 速度 要 快 很 多 。 


®@ HivevsSQL 


SQL 是 一 门 通用 的 数据 库 语言 ， 大 量 的 事务 和 分 析 语 句 都 是 由 SQL 完成 的 。Hive 则 是 以 数 
据 分 析 为 目标 所 设计 的 ， 这 意味 着 虽然 Hive 缺乏 更 新 和 删除 这 样 的 功能 ， 但 读 取 和 处 理 大 量 数 
据 的 速度 会 比 SQL 快 得 多 。 所 以 Hive SQL 看 起 来 像 SQL， 但 在 更 新 和 删除 等 功能 上 两 者 还 是 
有 很 大 区 别 的 。 虽 然 有 所 不 同 ， 但 如 果 你 有 SQL 背景 的 话 学 习 起 Hive 还 是 很 容易 的 。 不 过 要 注 
意 两 者 在 构造 和 语法 上 的 区 别 ， 否 则 容易 混淆 。 

下 面 我 们 来 分 析 以 下 三 种 语言 最 适用 的 情况 。 


1. 什么 时 候 用 Apache Pig 


当 你 需要 处 理 非 格式 化 的 分 布 式 数据 集 时 ， 如 果 想 充分 利用 自己 的 SQL 基础 ， 可 以 选择 
Pig。 使 用 Pig 你 无 须 自己 构建 MapReduce 任务 ， 有 SQL 背景 的 话 学 习 起 来 比较 简单 ， 开 发 速度 
也 很 快 。 


2. 什么 时 候 用 Apache Hive 


有 时 我 们 需要 收集 一 段 时 间 的 数据 来 进行 分 析 ， 而 Hive 就 是 分 析 历 史 数 据 绝 佳 的 工具 。 要 
注意 的 是 ， 数 据 必须 有 一 定 的 结构 才能 充分 发 挥 Hive 的 功能 。 用 Hive 来 进行 实时 分 析 可 能 就 不 
是 太 理想 了 ， 因 为 它 不 能 达到 实时 分 析 的 速度 要 求 〈 实 时 分 析 可 以 用 HBase，Facebook 用 的 就 
是 HBase)。 


3. 什么 时 候 用 SQL 


SQL 是 这 三 者 中 最 传统 的 数据 分 析 手 段 。 随 着 用 户 需 求 的 改变 ，SQL 本 身 也 在 进行 着 更 
新 ， 即 便 到 了 今天 也 不 能 说 SQL 过 时 。 用 SQL 来 进行 快速 的 复杂 处 理 和 分 析 还 是 显得 有 点 欠 
缺 。 如 果 所 进行 的 分 析 比 较 简 单 的 话 ，SQL 仍然 是 一 个 非常 好 的 工具 。 大 部 分 开发 人 员 都 对 
SQL 有 所 了 解 ， 所 以 使 用 SQL 的 话 ， 开 发 人 员 从 项 目 开 始 的 第 一 天 就 能 有 所 产 出 。SQL 提供 的 
扩展 和 优化 功能 也 让 我 们 能 够 根据 需求 进行 定制 。 

不 同 的 数据 没有 一 个 所 有 情况 都 适用 的 查询 工具 ， 根 据 自 己 的 需求 来 选择 不 同 工 具 才 是 正确 
的 方法 。 
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6 .4 ElasticSearch ( 全 文 搜索 引擎 ) 


Elasticsearch (简称 为 ES〉 是 一 个 实时 的 分 布 式 搜索 和 分 析 引 擎 。 它 可 以 快速 处 理 大 规模 数 
据 ， 用 于 全 文 搜索 ， 结 构 化 搜索 以 及 分 析 。Elasticsearch 是 一 个 建立 在 全 文 搜索 引擎 Apache 
Lucene 基础 上 的 搜索 引擎 ， 而 Lucene 是 当今 最 先进 、 最 高 效 的 全 功能 开源 搜索 引擎 框架 。 因 为 
Lucene 只 是 一 个 框架 ， 要 充分 利用 它 的 功能 ， 需 要 使 用 Java 在 程序 中 集成 Lucene。 而 
Elasticsearch 使 用 Lucene 作为 内 部 引擎 ， 但 是 在 使 用 它 做 全 文 搜索 时 ， 只 需要 使 用 统一 开发 好 的 
API 即 可 ， 而 不 需要 了 解 其 背后 复杂 的 Lucene 运行 原理 。 

Elasticsearch 是 用 Java 开发 的 ， 它 作为 Apache 许可 条 款 下 的 开放 源码 发 布 ， 是 一 个 完全 免 
费 的 搜索 产品 ， 也 是 当前 流行 的 企业 级 搜索 引擎 ， 能 够 实现 实时 搜索 ， 它 稳定 、 可 靠 、 快 速 、 安 
装 使 用 方便 。 它 可 运行 在 Windows 和 Linux 之 上 。Elasticsearch 包括 了 全 文 搜索 功能 ， 而 且 还 包 
括 了 以 下 功能 : 


6.4.1 


分 布 式 实时 文件 存储 ， 并 将 每 一 个 字段 都 编 入 索引 ， 使 其 可 以 被 搜索 。 
实时 分 析 的 分 布 式 搜索 引擎 。 

能 够 从 一 台 扩展 到 上 百 台 服 务 器 ， 处 理 PB 级 别 的 结构 化 或 非 结 构 化 数据 。 
通过 客户 端 或 者 程序 语言 与 ES 的 RESTful API 进行 交流 。 


全 文 索引 的 基础 知识 


全 文 索引 是 一 种 数据 结构 ， 它 允许 对 存储 在 文件 中 的 单词 进行 快速 随机 访问 。 当 需要 从 大 量 
文件 中 快速 检索 文本 目标 时 ， 首 先 必 须 将 文件 内 容 转 换 成 能 够 进行 快速 搜索 的 格式 ， 以 建立 针对 
文件 的 索引 数据 结构 ， 此 即 为 索引 过 程 。 它 通常 由 逻辑 上 互 不 相关 的 下 面 几 个 步骤 组 成 。 

1. 获取 原始 内 容 

我 们 可 以 通过 网 络 疏 虫 等 应 用 来 搜集 需要 索引 的 内 容 。 例 如 著名 的 开源 爬虫 程序 有 Solr、 


Nutch 等 等 。 
2. 建立 文档 


获取 的 原始 内 容 需 要 转换 成 文档 才能 提供 给 搜索 引擎 使 用 。 一 般 来 说 ， 一 个 网 页 、 一 个 
PDF 文档 、 一 封 邮件 或 一 条 日 志 信 息 都 可 以 作为 一 个 文档 。 

3. 文档 分 析 

搜索 引擎 不 能 直接 对 文本 进行 索引 ， 确 切 地 说 ， 必 须 首先 将 文本 分 割 成 一 系列 被 称 为 词汇 单 
元 (token) 的 独立 原子 元 素 ， 此 过 程 即 为 文档 分 析 。 每 个 token 大 致 能 与 自然 语言 中 的 “单词 ” 
对 应 起 来 ， 文 档 分 析 就 是 用 于 确定 文档 中 的 文本 域 如 何 分 割 成 token 序列 。 
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4. 文档 索引 


在 索引 步骤 中 ， 文 档 将 被 加 入 到 索引 列表 。 

我 们 以 ES 为 例 ， 来 看 一 下 上 述 的 第 3 步 和 第 4 步 。 如 图 6-21 所 示 ，ES 分 析 文 本 并 将 其 构 
建成 为 倒 排 索引 〈inverted index) ， 倒 排 索引 由 各 文档 中 出 现 的 单词 列表 组 成 ， 列 表 中 的 各 单词 
不 能 重复 且 需 要 指向 其 所 在 的 各 文档 。 因 此 ， 为 了 创建 倒 排 索引 ， 需 要 先 将 各 文档 中 域 的 值 切 分 
为 独立 的 单词 (也 称 为 term 或 token) ， 而 后 将 之 创建 为 一 个 无 重复 的 有 序 单词 列表 。 这 个 过 程 
称 之 为 “分 词 (tokenization) ”。 


图 6-21 全 文 索引 示例 


为 了 实现 全 文 索 引 ， 倒 排 索 引 中 的 数据 还 需 进行 “正规 化 normalization ) ”为 标准 格式 ， 
才能 评估 其 与 用 户 搜索 请 求 字 符 串 的 相似 度 。 例 如 ， 对 于 英文 全 文 检索 ， 将 所 有 大 写字 符 转换 为 
小 写 ， 将 复数 统一 单数 ， 将 同义词 统一 进行 索引 等 。 另 外 ， 执 行 查询 之 前 ， 还 需要 将 查询 字符 串 
按照 索引 过 程 的 同 种 格式 进行 “正规 化 (normalization) ”。 这 里 的 “分 词 ” 及 “正规 化 ”操作 
也 称 为 “分 析 (analysis) ”。Analysis 过 程 由 两 个 步骤 组 成 : 首先 将 文本 切 分 为 terms〔 词 项 ) 
以 适合 构建 倒 排 索引 ， 其 次 将 各 temms 正规 化 为 标准 形式 以 提升 其 “可 搜索 度 ”。 这 两 个 步骤 由 
分 析 器 〈analyzers) 完成 。 一 个 分 析 器 通常 需要 由 三 个 组 件 构成 : 字符 过 滤器 (Character 
filters )、 分 词 器 〈Tokenizer) 和 分 词 过 滤器 (Token filters) 组成。 


@ “字符 过 滤器 : 在 文本 被 切割 之 前 进行 清理 操作 ， 例 如 移 除 HTML 标签 ， 将 & 替 换 为 字 
符 等 ; 

@ 分词 器 : 将 文本 切 分 为 独立 的 词 项 ; 简单 的 分 词 器 通常 是 根据 空白 及 标点 符号 进行 切 
分 ; 

@ 分词 过 滤器 : 转换 字符 (如 将 大 写 转 为 小 写 ) 、 移 除 词 项 (如 移 除 a、an、of 及 the 
等 ) 或 者 添加 词 项 (例如 ， 添 加 同义词 ) 。 
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Elasticsearch 内 置 了 许多 字符 过 滤器 、 分 词 器 和 分 词 过 滤器 ， 用 户 可 按 需 将 它们 组 合成 自 定 
义 的 分 析 器 。 固 然 ， 创 建 倒 排 索引 时 需要 用 到 分 析 器 ， 但 传递 搜索 字符 串 时 也 可 能 需要 分 析 器 ， 
甚至 还 要 用 到 与 索引 创建 时 相同 的 分 析 器 才能 保证 单词 匹配 的 精确 度 。 

全 文 检索 就 是 从 索引 中 查找 词汇 ， 从 而 找到 包含 该 词汇 的 文档 的 过 程 。 除 了 快速 搜索 大 量 文 
本 和 搜索 速度 之 外 ， 搜 索 过 程 还 涉及 了 许多 其 他 问题 ， 例 如 单项 查询 、 多 项 查询 、 短 语 查询 、 通 
配 符 查 询 、 结 果 ranking 和 排序 ， 以 及 友好 的 查询 输入 方式 等 。 


6.4.2 ”安装 和 配置 ES 


ES 的 上 手 比较 简单 ， 它 是 一 个 零 配置 系统 。 它 附带 了 一 些 非常 合理 的 默认 值 ， 安 装 好 了 就 
可 以 立即 使 用 。 随 着 深入 学 习 和 使 用 ， 还 可 以 利用 Elasticsearch 更 多 高 级 的 功能 ， 整 个 引擎 可 以 
很 灵活 地 进行 配置 ， 可 以 根据 自身 需求 来 定制 属于 自己 的 Elasticsearch。 

很 多 用 户 使 用 ES 来 完成 全 文 搜索 功能 。 比 如 : 维基 百科 使 用 Elasticsearch 来 进行 全 文 搜索 
并 高 亮 显示 关键 词 ， 以 及 提供 search-as-you-type、did-you-mean 等 搜索 建议 功能 。StackOverflow 
将 全 文 搜索 与 地 理 位 置 和 相关 信息 进行 结合 ， 以 提供 more-like-this 相关 问题 的 展现 。2013 年 
初 ，GitHub 抛弃 了 Solr， 采 取 ElasticSearch 来 做 PB 级 的 搜索 。 据 称 ，GitHub 使 用 ElasticSearch 
搜索 20TB 的 数据 ， 包 括 13 亿 文件 和 1300 亿 行 代码 。 高 盛 〈(Goldman Sachs) 每 天 使 用 它 来 处 
理 5TB 数据 的 索引 ， 还 有 很 多 投资 银行 使 用 它 来 分 析 股 票 市 场 的 变动 。SoundCloud 使 用 
ElasticSearch 为 1.8 亿 用 户 提供 即时 而 精准 的 音乐 搜索 服务 。 而 百度 使 用 ElasticSearch 作为 文本 
数据 分 析 ， 采 集 百度 所 有 服务 器 上 的 各 类 指标 数据 及 用 户 自 定义 数据 ， 通 过 对 各 种 数据 进行 多 维 
分 析 展 示 ， 辅 助 定位 分 析 实 例 异 常 或 业务 层面 异常 。 目 前 覆盖 百度 内 部 20 多 个 业务 线 ， 单 集群 
最 大 100 台 机 器 ，200 个 ES 节点 ， 每 天 导入 30TB+ 数 据 。 

近年 ElasticSearch 发 展 迅猛 ， 已 经 超越 了 其 最 初 的 纯 搜 索引 擎 的 角色 ， 现 在 已 经 增加 了 数据 
聚合 分 析 (aggregation》 和 可 视 化 的 特性 。 如 果 你 有 数 百 万 的 文档 需要 通过 关键 词 进 行 定位 时 ， 
ElasticSearch 肯定 是 最 佳 选 择 。 如 果 你 的 文档 是 JSON 的 ， 你 也 可 以 把 ElasticSearch 当 作 一 种 
“NoSQL 数据 库 ”， 应 用 ElasticSearch 数据 聚合 分 析 的 特性 ， 针 对 数据 进行 多 维度 的 分 析 。 

ElasticSearch 可 以 以 单 点 或 者 集群 方式 运行 ， 以 一 个 整体 对 外 提供 search 服务 的 所 有 节点 组 
成 cluster， 组 成 这 个 cluster 的 各 个 节点 叫做 node。ElasticSearch 使 用 index 存储 索引 数据 ， 类 似 
于 一 个 数据 库 。ElasticSearch 使 用 索引 分 片 〈Shards) ， 这 是 ES 提供 分 布 式 搜索 的 基础 ， 它 将 
一 个 完整 的 index 分 成 若干 部 分 存储 在 相同 或 不 同 的 节点 上 ， 这 些 组 成 index 的 部 分 就 叫做 
shard 。 

ElasticSearch 可 以 设置 多 个 索引 的 副本 〈Replicas) ， 副 本 的 作用 是 提高 系统 的 容错 性 ， 当 
某 个 节点 某 个 分 片 损坏 或 丢失 时 可 以 从 副本 中 恢复 。 另 外 ， 它 可 以 提高 ElasticSearch 的 查询 效 
率 ，ES 会 自动 对 搜索 请 求 进行 负载 均衡 。ElasticSearch 还 提供 数据 恢复 (Recovery， 也 叫 数 据 重 
新 分 布 ) ， 它 在 有 节点 加 入 或 退出 时 会 根据 机 器 的 负载 对 索引 分 片 进行 重新 分 配 ， 挂 掉 的 节点 重 
新 启动 时 也 会 进行 数据 恢复 。 

Gateway 是 ElasticSearch 索引 快照 的 存储 方式 ， 使 得 备份 更 加 简单 。ES 默认 是 先 把 索引 存 
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放 到 内 存 中 ， 当 内 存 满 了 的 时 候 ， 再 持久 化 到 本 地 硬盘 。gateway 对 索引 快照 进行 存储 ， 当 这 个 
ElasticSearch 集群 关闭 再 重新 启动 时 就 会 从 gateway 中 读 取 索引 备份 数据 。 还 有 ，ElasticSearch 
是 一 个 基于 点 对 点 的 系统 ， 它 先 通过 广播 寻找 存在 的 节点 ， 再 通过 多 播 协议 来 进行 节点 之 间 的 通 
信 ， 同 时 也 支持 点 对 点 的 交互 。 在 ElasticSearch 内 部 节点 之 间 是 使 用 tcp 协议 进行 交互 ， 同 时 它 
支持 http 协议 (json 格式 ) 。ElasticSearch 各 节点 组 成 对 等 的 网 络 结构 ， 某 些 节点 出 现 故障 时 会 
自动 分 配 其 他 节点 代替 其 进行 工作 。 

ES 由 Java 语言 实现 ， 运 行 环境 依赖 Java，ES 推荐 Java 8 update 20 或 更 高 ， 或 Java 7 
update 55 或 更 高 。ES 的 最 新 版 本 是 2.3， 可 以 去 官网 https://www.elastic.co/products/elasticsearch/ 
下 载 。 下 载 后 解压 文件 ， 它 在 指定 路 径 生成 elasticsearch 相关 目录 。 然 后 配置 ES ， 修 改 
ES_HOME/config/elasticsearch.yml 文件 ， 配 置 格式 是 YAML， 比 如 : 


进入 ES 安装 目录 ， 执 行 命令 :bin/elasticsearch 就 可 以 启动 ES， 然 后 在 浏览 器 输入 http://ip 
地 址 :9200/， 查 看 页 面 信息 是 否 正 常 启动 。status=200 表示 正常 启动 了 。 接 下 来 就 是 创建 索引 和 
对 数据 批量 索引 。 之 后 就 可 以 检索 数据 。 当 数据 更 新 或 删除 时 ， 可 以 更 新 或 删除 相应 的 索引 。 
ElasticSearch 客户 端 支持 多 种 语言 ， 如 PHP、Java、Python、Perl 等 。 

检索 速度 快慢 与 索引 质量 有 很 大 的 关系 。 而 索引 质量 的 好 坏 主要 与 以 下 几 方 面 有 关 。 


1. 分 片 数 


分 片 数 是 与 检索 速度 非常 相关 的 指标 ， 如 果 分 片 数 过 少 或 过 多 都 会 导致 检索 比较 慢 。 分 片 数 
过 多 会 导致 检索 时 打开 比较 多 的 文件 ， 导 致 多 台 服务 器 之 间 通 信 。 而 分 片 数 过 少 会 导致 单个 分 片 
索引 过 大 ， 记 以 检索 速度 慢 。 在 确定 分 片 数 之 前 ， 需 要 进行 单 服务 单 索引 单 分 片 的 测试 ， 从 而 确 
定单 个 分 片 的 大 小 。 

2. 副本 数 


副本 数 与 索引 的 稳定 性 有 比较 大 的 关系 ， 如 果 Node 非 正常 挂 了 ， 这 会 导致 分 片 丢失 ， 为 了 
保证 这 些 数据 的 完整 性 ， 可 以 通过 副本 来 解决 这 个 问题 。 
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3. 分 词 


分 词 对 于 索引 有 一 定 的 影响 。 有 人 认为 词 库 越 大 ， 分 词 效果 越 好 ， 索 引 质 量 越 好 ， 其 实 不 
然 。 分 词 有 很 多 算法 ， 大 部 分 基于 词 表 进行 分 词 。 也 就 是 说 词 表 的 大 小 决定 索引 大 小 。 所 以 分 词 
与 索引 膨胀 率 有 直接 关系 。 词 表 不 应 很 多 ， 采 用 对 文档 相关 特征 性 较 强 的 那 种 即 可 。 在 保证 查 全 
查 准 的 情况 下 ， 词 表 数 量 越 小 ， 索 引 的 大 小 可 以 减少 越 多 。 索 引 大 小 减少 了 ， 那 么 检索 速度 也 就 
相应 地 提高 了 。 


4. 内 存 优化 


首先 ，ES 作为 一 个 Java 应 用 ， 就 脱离 不 开 JVM 和 GC。 在 使 用 ES 的 过 程 中 ， 要 防止 诸如 
heap 不 够 用 、 内 存 溢出 这 样 的 问题 ， 要 知道 哪些 设置 和 操作 容易 造成 以 上 问题 ， 有 针对 性 地 予 
以 规避 。 比 如 : ES 的 底层 引擎 是 基于 Lucene 的 ， 而 Lucene 的 倒 排 索引 (Inverted Index) 是 先 
在 内 存 里 生成 ， 然 后 定期 以 段 文件 (segment file) 的 形式 存 到 磁盘 的 。API 层面 的 文档 更 新 和 删 
除 实际 上 是 增 量 写 入 的 一 种 特殊 文档 ， 会 保存 在 新 的 段 里 。 不 变 的 段 文 件 易于 被 操作 系统 缓存 。 

我 们 建议 heap size 不 要 超过 系统 可 用 内 存 的 一 半 。 其 他 的 内 存 空间 让 OS 来 缓存 段 文 件 。 而 
JVM 参数 并 不 需要 做 特别 调整 ， 可 将 xms 和 xmx 设置 成 和 heap 一 样 大 小 ， 避 免 动态 分 配 heap 
size。 可 以 使 用 API 查看 一 个 索引 所 有 segment 的 内 存 占用 情况 ， 也 可 查看 一 个 node 上 所 有 
segment 占用 的 内 存 总 和 ， 通 过 以 下 几 个 方法 来 减少 data node 上 的 segment memory 占用 : 


删除 不 用 的 索引 。 
关闭 索引 (文件 仍然 存在 于 磁盘 ， 只 是 释放 掉 内 存 ) 。 需 要 的 时 候 可 以 重新 打开 。 
定期 对 不 再 更 新 的 索引 合并 优化 。 这 是 对 segment file 强制 合并 ， 可 以 节省 大 量 的 


segment memory。 


在 开发 与 维护 过 程 中 ， 我 们 总 结 出 以 下 优化 建议 : 


ES 性 能 体现 在 分 布 式 计算 中 ， 一 个 节点 是 不 足以 测试 出 其 性 能 ， 一 个 生产 系统 至 少 在 
三 个 节点 以 上 。 

倒 排 词典 的 索引 需要 常 驻 内 存 ， 无 法 GC， 需 要 监控 data node 上 segment memory 增长 
趋势 。 

根据 机 器 数 、 磁 盘 数 、 索 引 大 小 等 硬件 环境 ,根据 测试 结果 ， 设 置 最 优 的 分 片 数 和 备 
份 数 ， 定 期 删除 不 用 的 索引 ， 做 好 冷 数据 的 迁移 。 

必须 结合 实际 应 用 场景 ， 对 集群 使 用 情况 做 持续 的 监控 。 


6.4.3 ES API 
ES 提供 了 易 用 且 功 能 强大 的 RESTful API， 用 来 与 集群 进行 交互 ， 这 些 API 大 体 可 分 为 如 


下 四 类 : 
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检查 集群 、 节 点 、 索 引 等 健康 与 否 ， 以 及 获取 其 相关 状态 与 统计 信息 ; 
管理 集群 、 节 点 、 索 引 数 据 及 元 数据 
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@ ”执行 CRUD 操作 及 搜索 操作 ; 
@ ”执行 高 级 搜索 操作 ， 例 如 paging、filtering、scripting、faceting、aggregations 及 其 他 操 
作 。 


ES 的 RESTful API 通过 TCP 协议 的 9200 端口 提供 ， 客 户 端 工具 与 此 接口 进行 交互 。 一 个 流 
行 的 工具 为 curl。curl 与 ElasticSearch 交互 的 通用 请 求 格式 如 下 所 示 : 


@ VERB: HTTP 协议 的 请 求 方法 ， 常 用 的 有 GET、POST、PUT、HEAD 以 及 
DELETE; 

@ ”PROTOCOL: 协议 类 型 ，http 或 https; 

@ HOST: ES 集群 中 的 任 一 主机 的 主机 名 ; 

@ ”PORT: ES 服务 监听 的 端口 ， 默 认为 9200; 

@。 QUERY _ STRING: 查询 参数 ， 例 如 ?pretty 表示 使 用 易 读 的 JSON 格式 输出 ; 

@ ”BODY: JSON 格式 的 请 求 主体 ; 


与 ElasticSearch 集群 交互 时 ， 其 输出 数据 均 为 JSON 格式 ， 多 数 情况 下 ， 此 格式 的 易 读 性 较 
差 。cat API 会 在 交互 时 以 类 似 于 Linux 上 cat 命令 的 格式 对 结果 进行 逐 行 输出 ， 因 此 有 着 较 
JSON 好 些 的 可 读 性 。 调 用 cat API 仅 需要 向 “_cat” 资 源 发 起 GET 请 求 即 可 。 

ES 中 的 数据 查询 〈Query) API 是 ElasticSearch 的 API 中 较 大 的 一 部 分 ， 可 完成 诸多 类 型 查 
询 操作 ， 例 如 simple term query、phrase、range 、boolean 、fuzzy、span 、wildcard 、spatial 等 
简单 类 型 查询 、 组 合 简单 查询 类 型 为 复杂 类 型 查询 ， 以 及 文档 过 滤 等 。 另 外 ， 查 询 执行 过 程 通常 
要 分 成 两 个 阶段 :分 散 阶 段 及 合并 阶段 。 分 散 阶段 是 向 所 查询 的 索引 中 的 所 有 shard 发 起 执行 查 
询 的 过 程 ， 合 并 阶段 是 将 各 shard 返回 的 结果 合并 、 排 序 并 响应 给 客户 端的 过 程 。 向 
ElasticSearch 发 起 查询 操作 有 两 种 方式 : 一 是 通过 RESTful request API 传递 查询 参数 ， 也 称 
“query-string”; 另 一 个 是 通过 发 送 REST request body， 也 称 作 JSON 格式 。 通 过 发 送 request 
body 的 方式 进行 查询 ， 可 以 通过 JSON 定义 查询 体 ， 编 写 更 具 表现 形式 的 查询 请 求 。 访 问 
ElasticSearch 的 search API 需要 通过 “_search” 端 点 进行 。 例 如 ， 向 students 索引 发 起 一 个 空 查 
询 : 


上 面 的 查询 命令 也 可 改写 为 带 request body 的 格式 ， 其 等 同 效果 的 命令 如 下 : 
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上 述 命 令 所 示 的 查询 语句 是 ElasticSearch 提供 的 JSON 风格 的 域 类 型 查询 语言 ， 也 即 所 谓 的 
Query DSL。 上 面 的 命令 中 ，“query” 参 数 给 出 了 查询 定义 ，match_all 给 出 了 查询 类 型 ， 它 表 
示 返 回 给 定 索引 的 所 有 文档 。 除 了 query 参数 之 外 ， 还 可 以 指定 其 他 参数 来 控制 搜索 结果 ， 例 如 
“size” 参 数 可 定义 返回 的 文档 数量 〈 默 认为 10) ， 而 “from ”参数 可 指定 结果 集中 要 显示 出 的 
文档 的 起 始 偏 移 量 〈 默 认为 0) ，“sort” 参 数 可 指明 排序 规则 等 。 

ElasticSearch 的 大 多 数 search API (除了 Explain API) 都 支持 多 索引 (mutli-index) 和 多 类 
型 Cmultirtype) 。 如 果 不 限制 查询 时 使 用 的 索引 和 类 型 ， 查 询 请 求 将 发 给 集群 中 的 所 有 文档 。 
ElasticSearch 会 把 查询 请 求 并 行 发 给 所 有 shard 的 主 shard 或 某 一 副本 shard。 不 过 ， 如 果 是 想 向 
某 一 或 某 些 索引 的 某 一 或 某 些 类 型 发 起 查询 请 求 ， 可 通过 指定 查询 的 URL 进行 。 比 如 : 


Elasticsearch 支持 许多 的 query 和 filter。Filter DSL 中 常见 的 有 term Filter、terms Filter、 
range Filter、exists and missing Filters 和 bool Filter。 而 Query DSL 中 常见 的 有 match_all、 
match、multi_match 及 bool Query。 
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第 7 章 
< 大 数据 深 集 和 导入 > 


任何 完整 的 大 数据 平台 ， 一 般 包 括 以 下 的 几 个 过 程 : 数据 采集 、 数 据 存储 、 数 据 管理 、 数 据 
处 理 、 数 据 展现 (可 视 化 、 报 表 和 监控 )。 数 据 是 分 散在 不 同 的 系统 中 的 ， 在 让 数据 产生 价值 之 
前 ， 必 须 对 数据 进行 采集 、 清 洗 、 处 理 。 大 数据 的 数量 和 维度 越 来 越 多 ， 我 们 必须 采用 大 数据 技 
术 获 取 所 需 信息 。 计 算 机 网 络 和 信息 设备 的 快速 发 展 产生 的 海量 数据 存在 于 各 类 服务 器 、 媒 
介 、 机 构 ， 需 要 采取 不 同 的 办 法 去 寻找 、 加 工 数据 才 可 以 获得 所 需 信 息 。 数 据 采 集 是 所 有 数据 系 
统 必 不 可 少 的 ， 随 着 大 数据 越 来 越 被 重视 ， 数 据 采 集 的 挑战 也 变 得 尤为 突出 。 这 其 中 包括 : 


@ 数据 源 多 种 多 样 。 

数据 量 大 ， 变 化 快 。 

如 何 保 证 数据 采集 的 可 靠 性， 高 性 能 。 
如 何 避 免 重复 数据 。 

如 何 保证 数据 的 质量 。 


10 年 前 ， 网 站 日 志 是 给 开发 人 员 和 网 站 管理 人 员 解 决 网 站 的 问题 。 时 至 今日 ， 网 站 日 志 数 
据 可 能 包含 了 大 量 的 业务 和 客户 相关 的 很 有 价值 信息 ， 成 为 大 数据 分 析 的 源 数据 。 大 数据 采集 首 
先是 从 网 站 日 志 收 集 开始 的 ， 之 后 进入 了 广阔 的 领域 。 本 章 以 日 志 采 集 作 为 实例 讲解 大 数据 采 
集 。 正 如 我 们 在 第 4 章 中 所 阐述 的 ， 将 数据 存储 到 HDFS 并 不 是 难事 ， 只 需要 使 用 一 条 
“hadoop fs” 命 令 即 可 。 但是， 这 些 网 站 一 直 在 产生 大 量 的 日 志 (一般 为 流 式 数据 )， 那 么 ， 使 
用 上 述 命令 批量 加 载 到 HDFS 中 的 频率 是 多 少 ? 每 小 时 ? 每 隔 10 分 钟 ? 虽然 批量 处 理 模式 能 够 
满足 一 部 分 用 户 的 需求 ， 但 是 很 多 用 户 需要 我 们 使 用 类 似 流水 线 的 模式 来 实时 采集 (这 样 就 保证 
了 采集 和 后 续 处 理 之 间 的 延迟 非常 小 )。 后 一 个 模式 ， 就 出 现 了 message broker， 即 : 以 一 个 实时 
的 模式 从 各 个 数据 源 采 集 数据 到 大 数据 系统 上 ， 为 后 续 的 近 实时 的 在 线 分 析 系统 和 离线 分 析 系 统 
服务 。 对 于 这 个 模式 ， 主 要 使 用 Flume 和 Kafka 等 工具 。 基 于 这 些 工 具 ， 一 些 企业 实现 了 大 数据 
采集 平台 ， 完 成 了 下 面 的 目标 : 


@ ”高 性 能 : 处 理 大 数据 的 基本 要 求 ， 如 每 秒 处 理 几 十 万 条 数据 。 
海量 式 : 支持 TB 级 甚至 是 PB 级 的 数据 规模 。 

实时 性 : 保证 较 低 的 延迟 时 间 ， 达 到 秒 级 别 ， 甚 至 是 毫秒 级 别 。 
分 布 式 : 支持 大 数据 的 基本 架构 ， 能 够 平滑 扩展 。 

易 用 性 : 能 够 快速 进行 开发 和 部 署 。 
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可 靠 性 : 能 可 靠 地 处 理 流 数 据 。 


数据 采集 是 各 种 来 自 不 同 数据 源 的 数据 进入 大 数据 系统 的 第 一 步 。 这 个 步骤 的 性 能 将 会 直接 
决定 在 一 个 给 定 的 时 间 段 内 大 数据 系统 能 够 处 理 的 数据 量 的 能 力 。 数 据 采 集 过 程 的 一 些 常见 步骤 
是 : 解析 传 入 数据 ， 做 必要 的 验证 ， 数 据 清洗 和 数据 去 重 ， 数 据 转换 ， 并 将 其 存储 到 某 种 持久 
层 。 涉 及 数据 采集 过 程 的 逻辑 步骤 如 图 7-1 所 示 。 


大 数据 采集 


数据 解析 数据 验证 数据 转换 
源 验 1 Cleansing 向 
Parsing pd Validation md 数据 去 重 Transformation 
De-duping 


图 7-1 大 数据 采集 步骤 


采集 到 的 大 数据 保存 到 一 个 持久 层 中 ， 如 : HDFS、HBase 等 系统 上 。 下 面 是 一 些 性 能 方面 
的 常用 技巧 : 


来 自 不 同 数据 源 的 传输 应 该 是 异步 的 。 可 以 使 用 文件 来 传输 、 或 者 使 用 消息 中 间 件 来 
实现 。 由 于 数据 异步 传输 ， 所 以 数据 采集 过 程 的 吞吐 量 可 以 大 大 高 于 大 数据 系统 的 处 
理 能 力 。 异 步 数 据 传输 同样 可 以 在 大 数据 系统 和 不 同 的 数据 源 之 间 进 行 解 蜀 。 大 数据 
基础 架构 设计 使 得 其 很 容易 进行 动态 伸缩 ， 数 据 采集 的 峰值 流量 对 于 大 数据 系统 来 说 
必须 是 安全 的 。 

如 果 数 据 是 直接 从 外 部 数据 库 中 抽取 的 ， 确 保 拉 取 数 据 是 使 用 批量 的 方式 。 

如 果 数 据 是 从 文件 解析 ， 请 务必 使 用 合适 的 解析 器 。 例 如 : 如 果 从 一 个 XML 文件 中 读 
取 ， 则 有 不 同 的 解析 器 像 DOM、SAX、DOM 等 。 类 似 地 ， 对 于 CSV、JSON 和 其 他 
格式 的 文件 ， 也 有 相应 的 解析 器 和 API 可 供 选 择 。 

优先 使 用 成 熟 的 验证 工具 。 大 多 数 解 析 / 验 证 工作 流程 通常 运行 在 服务 器 环境 中 。 大 部 
分 的 场景 基本 上 都 有 现成 的 标准 校 验 工具 。 这 些 标准 的 现成 的 工具 一 般 来 说 要 比 你 自 
己 开 发 的 工具 性 能 要 好 得 多 。 比 如 : 如 果 数据 是 XML 格式 的 ， 优 先 使 用 XML 
(XSD ) 用 于 验证 。 

尽量 提前 过 滤 掉 无 效 数 据 ， 以 便 后 续 的 处 理 流 程 不 用 在 无 效 数据 上 浪费 过 多 的 计算 能 
力 。 处 理 无 效 数 据 的 一 个 通用 做 法 是 将 它们 存放 在 一 个 专门 的 地 方 ， 这 部 分 的 数据 存 
储 占 用 额外 的 开销 。 

如 果 来 自 数据 源 的 数据 需要 清洗 ， 例 如 去 掉 一 些 不 需要 的 信息 ， 尽 量 保持 所 有 数据 源 
的 抽取 程序 版 本 一 致 ， 确 保 一 次 处 理 的 是 一 个 大 批量 的 数据 ， 而 不 是 一 条 记录 一 条 记 
录 地 来 处 理 。 一 般 来 说 数据 清洗 需要 进行 数据 关联 。 数 据 清洗 中 需要 用 到 的 静态 数据 
关联 一 次 ， 并 且 一 次 处 理 一 个 大 批量 数据 就 能 够 大 幅 提 高 数据 处 理 效 率 。 

来 自 多 个 源 的 数据 可 以 是 不 同 的 格式 。 有 时 ， 需 要 进行 数据 转换 ， 使 接收 到 的 数据 从 
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多 种 格式 转化 成 一 种 或 一 组 标准 格式 。 


一 旦 所 有 的 数据 采集 完成 后 ， 转 换 后 的 数据 通常 存储 在 某 些 持久 层 ， 以 便 以 后 分 析 处 理 。 有 
不 同 的 持久 系统 ， 如 : NoSQL 数据 库 、 分 布 式 文件 系统 等 。 我 们 要 特别 指出 的 是 ， 数 据 清洗 是 
很 重要 的 一 步 。 许 多 的 数据 分 析 最 后 失败 ， 原 因 就 是 要 分 析 的 数据 存在 严重 的 质量 问题 ， 或 者 数 
据 中 某 些 因素 使 分 析 产 生 偏 见 ， 或 使 得 数据 科学 家 得 出 根本 不 存在 的 规律 。 虽 然 数 据 清洗 很 琐 
碎 ， 但 是 只 有 事先 做 好 了 这 个 清洗 工作 ， 才 能 让 分 析 工作 卓有成效 。 许 多 初级 的 数据 科学 家 往往 
急于 求 成 ， 对 数据 草草 处 理 就 进行 下 一 步 分 析 工 作 ， 等 到 运行 算法 时 ， 才 发 现 数据 有 严重 的 质量 
问题 ， 无 法 得 出 合理 的 分 析 结 果 。 总 之 ， 一 定 要 防止 “垃圾 进 垃圾 出 ”。 


7 。 1 Flume 


Apache Flume 是 Cloudera 提供 给 Hadoop 社区 的 一 个 项 目 ， 用 于 从 不 同 的 数据 源 可 靠 有 效 地 
加 载 数据 流 到 HDFS 中 。Flume 具有 一 定 的 容错 性 ， 并 支持 failover 和 系统 恢复 。Flume 是 一 个 
分 布 式 、 可 靠 、 可 用 的 轻 量 级 工具 ， 非 常 简单 ， 容 易 适 应 各 种 方式 的 数据 收集 。Flume 使 用 
Java 编写 ， 其 需要 运行 在 Java 1.6 或 更 高 版 本 之 上 。Flume 的 官方 网 站 为 
http:/flume.apache.org/ 。 


7.1.1 Flume 架构 


Flume 具有 分 布 式 、 高 可 靠 、 高 容错 、 易 于 定制 和 扩展 的 特点 。 它 将 数据 从 产生 、 传 输 、 处 
理 并 最 终 写 入 目标 的 路 径 的 过 程 抽象 为 数据 流 ， 在 具体 的 数据 流 中 ， 数 据 源 支持 在 Flume 中 定 
制 数据 发 送 方 ， 从 而 支持 收集 各 种 不 同 协议 数据 。 同 时 ，Flume 数据 流 提供 对 数据 进行 简单 处 理 
的 能 力 ， 如 过 滤 、 格 式 转换 等 。 此 外 ，Flume 还 具有 能 够 将 数据 写 往 各 种 数据 目标 〈 可 定制 ) 的 
能 力 。 总 的 来 说 ，Flume 是 一 个 可 扩展 、 适 合 复杂 环境 的 海量 数据 采集 系统 。Flume 的 架构 如 图 
7-2 所 示 。 


Flume 代理 


数据 | mh 全 首 局 事件 通道 事件 mep | 数据 
事件 
图 7-2 Flume 架构 


Flume 主要 有 以 下 几 个 核心 概念 : 


@ 事件 (Event) : Flume 传递 的 一 个 数据 单元 ， 除 了 采集 到 的 数据 (比如 : 单个 日 志 ) 
之 外 ， 它 还 带 有 一 个 可 选 的 消息 头 。 
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@@ 源 (Source) : 输入 叫做 源 ， 数 据 通过 源 (Source ) 进入 Flume。 负 责 接收 输入 数据 ， 
并 将 数据 写 入 管道 ， 这 有 两 种 模式 ， 一 种 是 主动 抓 取 数据 ， 另 一 种 是 被 动 等 待 数据 。 
源 将 事件 写 到 一 个 或 多 个 通道 中 。 

@ 接收 器 (Sink) : 输出 叫 接收 器 ， 是 从 一 个 通道 中 接收 事件 ， 发 送 数 据 给 目的 地 ( 比 
如 : HDFS ) 的 实体 。HDFS Sink 就 是 一 个 HDFS 文件 的 接收 器 。 接 收 器 负责 从 管道 中 
读 出 数据 并 发 给 下 一 个 Agent 或 者 最 终 的 目的 地 。 

@ 通道 (Channel) : 在 Source 和 Sink 之 间 传 递 事件 的 一 个 临时 存储 区 ， 它 保存 有 
Source 传递 过 来 的 事件 ( Source 把 事件 放 到 Channel 上 ，Sink 从 Channel 上 取出 事 
件 ) 。 缓 存 从 source 到 Sink 的 中 间 数 据 。 可 使 用 不 同 的 配置 来 做 Channel， 例 如 内 
存 、 文 件 、JDBC 等 。 使 用 内 存 性 能 高 但 不 持久 ， 有 可 能 丢失 数据 。 使 用 文件 更 可 靠 ， 
但 性 能 不 如 内 存 。 

@ ”数据 流 (Flow ) : 事件 从 源 点 到 达 目的 点 (接收 器 ) 的 迁移 的 抽象 (就 是 图 上 细 的 箭 
奖 永 5 

@ ”Flume 代理 (Agent) : 一 个 独立 的 Flume 进程 ， Source、Channel 和 Sink 都 运行 在 这 
个 进程 中 。 代 理 可 能 会 有 多 个 源 、 通 道 与 接收 器 。 

Flume 在 Source 和 Sink 端 都 使 用 了 transaction 机 制 保证 在 数据 传输 中 没有 数据 丢失 ， 如 图 

7-3 所 示 。 
源 的 事务 Fume 代 现 接收 器 的 事务 


图 7-3 事务 处 理 


7.1.2 ”Flume 事件 


Flume 事件 由 0 个 或 多 个 头 与 体 组 成 ， 也 就 是 说 ， 它 包含 了 采集 的 数据 〈“ 体 ”和 一 些 额外 
信息 〈“ 头 ”) 的 一 个 数据 单元 。Flume 事件 是 Flume 传输 的 基本 单元 。 头 是 一 些 键 - 值 对 
(Map<String,String>)， 比 如 : 事件 的 时 间 戳 或 发 出 事件 的 服务 器 主机 名 ， 类 似 HTTP 头 的 功 
能 。“ 体 ”是 一 个 字 节 数组 (byte[])， 如 图 74 所 示 。Flume 可 能 会 自动 添加 一 些 头 信息 ， 比 如 : 
数据 来 自 的 主机 名 。 


Flume 事件 
头 : timestamp= 时 间 戳 


hostname=zhenghong.da-shuju.com 


体 : 数据 


7-4 Flume 事件 
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7.1.3 Flume 源 
Flume 源 的 类 型 、 说 明和 实现 的 类 如 表 7-1 所 示 。 
表 7-1 Flume 源 的 类 型 、 说 明和 实现 的 类 


说 明 实现 的 类 


执行 一 个 Unix 命令 ， 并 从 stdout (标准 输出 ) ExecSource 
上 读数 据 

监控 某 一 个 端口 ， 从 端口 上 读 取 文本 行 数据 作 | NetcatSource 
为 事件 的 数据 


org.apache.flume.source 压力 测试 使 用 。 连 续 事件 源 ， 每 个 事件 具有 相 | org.apache.flume.source 
.StressSource 同 的 负载 。 默 认 是 500 个 字 节 ， 每 个 字 节 是 一 | .StressSource 
个 最 大 为 127 的 值 


org.apache.flume.source ScribeSource 
‘scribe.ScribeSource 


Flume 允许 自 定义 数据 源 的 类 型 和 实施 类 ， 只 需要 通过 继承 
org.apache.flume.source.AbstractSource 类 即 可 。 在 Flume agent 的 配置 文件 中 ， 你 可 以 定义 一 个 或 
多 个 源 。 比 如 ， 下 面 我 们 定义 了 一 个 名 叫 sl 的 源 〈 每 个 源 、 通 道 和 接收 器 在 该 代理 的 上 下 文中 
必须 要 有 一 个 唯一 的 名 字 )， 并 指定 了 源 的 通道 为 cl (注意 ，channels 是 复数 ， 也 就 是 说 ， 你 可 
以 为 一 个 源 指定 多 个 通道 )， 类 型 为 netcat， 它 监听 192.168.0.2 的 8083 端口 上 的 数据 : 


agent.sources= sl 

agent .channels=cl 

agent .sinks=k1 
agent.sources.sl.type = netcat 
agent .sources.sl.channels=cl 
agent .sources.sl.bind=192.168.0.2 
agent .sources.sl.port=8083 


在 安装 完 Flume， 配 置 上 面 的 参数 之 后 ， 就 可 以 启动 它 了 。 这 时 候 ， 源 就 在 192.168.0.2 的 
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8083 端口 上 进行 监听 。 你 可 以 使 用 nc 命令 (或 其 他 网 络 客户 端 ) 给 上 述 端口 发 送 数据 ， 这 些 数 
据 将 被 写 到 内 存 通道 中 ， 然 后 被 送 到 接收 器 上 。 因 为 接收 器 是 log4j 日 志文 件 ， 你 可 以 打开 日 志 
文件 来 确认 是 否 收 到 了 数据 。 

Flume 有 一 个 exec 源 ， 它 提供 了 在 Flume 外 执行 命令 ， 并 将 输出 结果 转换 为 Flume 事件 的 
机 制 。 比 如 : 下 面 的 配置 将 会 对 /yunsheng/log/huanbao.log 文件 执行 tail 命令 ， 把 日 志 数 据 写 到 c2 
通道 上 。 


7.1.4 Flume 拦截 器 (Interceptor) 


数据 采集 的 理想 做 法 是 : 由 数据 的 生产 者 在 把 数据 发 送 到 平台 之 前 对 数据 进行 清理 。 这 应 当 
由 产生 数据 的 团队 来 处 理 ， 因 为 他 们 最 了 解 他 们 自己 的 数据 。 如 图 7-5 所 示 ， 拦 截 器 是 数据 流 中 
的 一 个 处 理 点 ， 它 可 以 在 源 和 通道 之 间 插入 一 个 或 多 个 拦截 器 ， 来 动态 检查 和 修改 Flume 事 
件 。 有 点 类 似 Servlet 的 ServletFilter。 


Flume 代理 


7-5 拦截 器 


下 面 这 个 例子 添加 了 4 个 拦截 器 Cil、 记 、i3 和 府 ， 记 接收 i1 的 处 理 结果 ，i3 接收 这 的 处 
理 结果 ，i4 接收 i3 的 处 理 结果 ， 并 将 结果 送 给 通道 选择 器 )。 其 中 i 是 一 个 时 间 惟 拦截 器 ， 如 
果 源 中 没有 timestamp 头 ， 那 么 ， 拦 截 器 会 添加 之 。i 是 一 个 Host 拦截 器 ， 它 会 向 事件 中 添加 
一 个 Flume 代理 所 在 的 IP 的 头 。i3 是 一 个 static 拦截 器 ， 可 用 于 添加 一 对 “ 键 值 ”。i4 是 一 个 
正则 表达 式 过 滤 拦 截 器 ， 这 会 根据 “ 体 ”《〈 即 : 传输 数据 ) 的 内 容 来 过 滤 事件 。 在 regex 上 设置 
模式 字符 串 ， 如 果 你 设置 了 excludeEvents 的 值 为 锯 lse (默认 值 )， 那 么 ， 只 保留 与 模式 匹配 的 事 
件 ; 如 果 为 tue， 那 么 ， 过 滤 掉 匹 配 的 事件 。 
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上 面 的 perserveExisting 指定 是 保留 头 上 的 相关 信息 ， 还 是 覆盖 之 。 还 有 一 个 拦截 器 是 正则 
表达 式 抽 取 过 滤器 。 它 可 以 抽取 事件 “ 体 ”( 即 : 数据 ) 的 内 容 ， 并 放 到 Flume 头 上 ， 以 便 通 
道 选择 器 根据 这 些 值 路 由 不 同 的 通道 。 

Flume 还 允许 我 们 自己 定义 拦截 器 ， 这 就 需要 实现 org.apache.flume.interceptorInterceptor 和 
org.apache.flume.interceptor.Interceptor.Builder 接口 。 假 定 你 的 类 名 为 com.yunsheng.Test。 那 么 ， 
你 可 以 设置 为 : 


7.1.5 ”Flume 通道 选择 器 (Channel Selector) 


如 图 7-6 所 示 ，Source 上 的 数据 可 以 复制 到 不 同 的 通道 上 。 每 一 个 Channel 也 可 以 连接 不 同 
数量 的 Sink。 这 样 连接 不 同 配置 的 Agent 就 可 以 组 成 一 个 复杂 的 数据 收集 网 络 。 通 过 对 Agent 的 
配置 ， 可 以 组 成 一 个 路 由 复杂 的 数据 传输 网 络 。 


Flume 代理 


输出 数据 


输入 数据 


输出 数据 


7-6 通道 选择 器 


通道 选择 器 负责 将 数据 从 一 个 源 转 到 一 个 或 多 个 通道 上 。Flume 提供 了 Replicating Channel 
Selector (复制 通道 选择 器 )、Multiplexing Channel Selector (多 路 通道 选择 器 ) 和 Custom Channel 
Selector 〈 自 定义 通道 选择 器 )。 复 制 通道 选择 器 是 一 个 默认 的 通道 选择 器 ， 负 责 将 事件 复制 到 每 
个 通道 上 ， 而 多 路 通道 选择 器 会 根据 某 些 头 信息 把 事件 放 到 不 同 的 通道 上 。 通 道 选择 器 和 拦截 器 
一 起 构成 了 具有 简单 的 工作 流 功能 的 多 通道 路 由 。 

下 面 这 个 例子 设置 了 多 路 通道 选择 器 ， 并 设置 了 通道 选择 器 使 用 头 信息 port 的 值 来 发 送 不 
同 端口 来 的 数据 到 不 同 的 通道 上 。8081 端口 的 数据 到 cl 通道 ，8082 端口 的 数据 到 c2 通道 ， 而 
8083 端口 的 数据 到 c3 通道 。 
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agent .sources.sl.selector.type=multiplexing 
agent .sources.s1.selector.header=port 

agent .sources.sl.selector.default=cl 

agent .sources.s1.selector.mapping.8081=c1 
agent .sources.s1.selector.mapping.8082=c2 
agent .sources.sl.selector.mapping.8083=c3 


7.1.6 ”Flume 通道 


在 Flume 中 ， 通 道 指 的 是 位 于 源 与 接收 器 之 间 的 组 件 ， 为 流动 的 事件 数据 提供 了 一 个 中 间 
缓存 区 域 。Flume 通道 的 类 型 、 说 明和 实现 的 类 如 表 7-2 所 示 。 


表 7-2 ”Flume 通道 的 类 型 、 说 明和 实现 的 类 


说 明 实现 的 类 


类 型 
memory 事件 数据 存储 在 内 存 中 ， 这 是 最 快 的 , 但 | MemoryChannel 
是 不 持久 的 事件 传输 


jdbc 事件 数据 存储 在 基于 JDBC 的 可 持久 化 的 | JDBCChannel 
数据 库 中 (目前 Flume 内 置 支持 Derby) 
recoverablememory 一 个 可 持久 化 的 通道 ， 使 用 本 地 文件 系统 | RecoverableMemoryChannel 
作为 存储 
org.apache.flume.channel.Pse | 测试 用 PseudoTxnMemoryChannel 
udoTxnMemoryChannel 


对 于 上 面 的 memory 和 recoverablemeory 两 个 类 型 ，recoverablememory 是 本 地 文件 系统 的 持 
久 化 通道 ， 它 要 比 memory 慢 一 点 ， 因 为 它 需要 在 接收 器 接 到 数据 之 前 将 所 有 变化 写 到 本 地 文件 
系统 上 《〈 即 : 磁盘 上 )。 当 出 现 问 题 (如 : 硬件 问题 、JVM 崩溃 等 ) 而 Flume 代理 需要 重启 时 ， 
这 些 事件 数据 可 以 被 恢复 。 与 memory 相 比 ，recoverablememory 可 以 缓存 更 多 的 事件 数据 。 至 
于 选择 哪个 类 型 ， 这 取决 于 用 户 的 实际 需要 。 理 论 上 说 ， 如 果 从 源 到 通道 的 数据 存储 率 大 于 接收 
器 从 通道 获取 数据 的 速率 ， 那 么 ， 就 会 超出 通道 的 处 理 能 力 ， 会 抛 出 ChannelException 异常 。 所 
以 ， 源 需要 对 这 个 异常 做 一 些 处 理 。 

Flume 还 允许 自 定义 通道 的 类 型 和 实施 类 。 和 源 一 样 ， 在 Flume agent 的 配置 文件 中 ， 你 可 以 定 
义 一 个 或 多 个 通道 ， 比 如 ， 下 面 我 们 定义 了 一 个 名 叫 cl 的 通道 (每 个 通道 在 该 代理 的 上 下 文中 必须 
要 有 一 个 唯一 的 名 字 )， 并 指定 了 通道 能 够 持 有 的 最 大 的 事件 数量 为 200 默认 为 100。 如 果 增 加 了 
这 个 值 ， 你 可 能 需要 增加 JVM 堆 空 间 的 大 小 )， 它 监听 192.168.0.2 的 8083 端口 上 的 数据 : 


agent .Sources= sl 
agent .channels=cl 
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agent .sinks=k1l 

agent .sources.sl.type = netcat 
agent .sources.sl.channels=cl 
agent .sources.sl.bind=192.168.0.2 
agent .sources.sl.port=8083 
agent.channels.cl1 .type=memory 
agent .channels.cl.capacity=200 


Flume 通道 还 有 其 他 一 些 配置 ， 比 如 : transactionCapacity 是 指定 源 的 ChannelProcessor( 负 
责 单 个 事务 中 将 数据 从 源 移动 到 通道 中 的 组 件 ) 可 以 写 入 的 最 大 的 事件 数量 ， 也 指 的 是 
SinkProcessor (负责 将 数据 从 通道 移动 到 接收 器 的 组 件 ) 在 单个 事务 中 所 能 读 取 的 最 大 的 事件 的 
数量 。 如 果 接 收 器 能 够 进行 大 数据 量 的 处 理 ， 那 么 ， 加 大 这 个 值 会 提高 速度 。 还 有 一 个 参数 是 
keep-alive， 它 指 的 是 : 当 通 道 已 经 满 了 ， 等 待 写 入 数据 的 时 间 。 其 他 的 参数 如 byteCapacity 和 
BufferPercentage 的 设置 是 同 JAVA 的 OutOfMemoryErrors 有 关 。 如 果 得 到 了 OutOfMemoryErrors 
的 错误 ， 可 以 考虑 调整 这 些 参数 。 

对 于 file 类 型 的 Flume 通道 ， 你 可 以 设置 checkpointDir 和 dataDirs 属性 来 为 不 同 的 通道 指定 
不 同 的 目录 。 默 认 的 文件 通道 的 容量 是 100 万 个 事件 。 


7.1.7 ”Flume 接收 器 
Flume 接收 器 支持 的 类 型 、 说 明和 实现 类 如 表 7-3 所 示 。 
表 7-3 ”Flume 接收 器 支持 的 类 型 、 说 明和 实现 的 类 


说 明 实现 类 


org.apache.flume.sink.h | 数据 写 入 HBase 数据 库 org.apache.flume.sink.hbase.HBaseSink 
base.HBaseSink 或 或 

org.apache.flume.sink.h org.apache.flume.sink.hbase.AsyncHBaseSink 
base.AsyncHBaseSink 


数据 写 入 日 志文 件 〈 默 认为 | LoggerSink 
log4j，INFO 级 别 ， 可 配置 ) 

数据 被 转换 成 avro 事件 ,然后 | AvroSink 
发 送 到 配置 的 RPC 端口 上 


rn 
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Flume 还 允许 自 定义 接收 器 的 类 型 和 实施 类 ， 只 需要 通过 继承 
org.apache.flume.sink.AbstractSink 类 即 可 。 和 源 和 通道 一 样 ， 在 Flume agent 的 配置 文件 中 ， 你 可 
以 定义 一 个 或 多 个 接收 器 ， 比 如 ， 下 面 我 们 定义 了 一 个 名 叫 kl 的 接收 器 (每 个 接收 器 在 该 代理 
的 上 下 文中 必须 要 有 一 个 唯一 的 名 字 )， 并 指定 了 接收 器 的 类 型 为 logger〈 该 类 型 的 接收 器 主要 
用 于 调试 与 测试 ， 它 默认 使 用 log4j 将 所 有 INFO 级 别 的 日 志 记 录 下 来 )， 接 收 器 kl 的 数据 来 自 
于 通道 c1。“agent.sinks.kl.channel” 上 的 channel 是 单数 ， 这 是 因为 一 个 接收 器 只 能 从 一 个 通道 


下 面 我 们 来 看 一 下 HDFS 接收 器 。HDFS 接收 器 的 作用 是 持续 打开 HDFS 中 的 文件 ， 然 后 以 
流 的 方式 将 数据 写 入 其 中 。 为 了 使 用 HDFS 接收 器 ， 可 将 接收 器 的 类 型 设置 为 hdfs， 并 设置 
HDFS 路 径 : 


对 于 HDFS 路 径 值 ，Flume 支持 基于 时 间 的 转 义 序列 ， 比 如 : 


也 可 以 使 用 事件 的 头 值 〈 假 定 键 为 ogType 的 头 ) 来 将 数据 写 到 不 同 的 HDFS 路 径 ， 比 如 : 


除了 path， 还 可 以 设置 文件 名 的 前 绥 〈.filePrefix) 和 后 级 .fileSuffix)。Flume 还 支持 压缩 
文件 ， 比 如 : 


上 面 是 设置 输出 文件 的 路 径 和 文件 名 。 对 于 数据 输出 ， 可 以 使 用 序列 器 ， 比 如 下 面 我 们 采 
用 text 序列 化 器 (默认 设置 )， 它 只 会 输出 Flume 事件 体 〈 即 : 只 是 数据 本 身 )， 而 丢弃 头 信 
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息 。 因 为 “appendNewLink=true”， 所 以 在 文件 中 的 每 个 事件 数据 后 面 都 有 一 个 换行 符 。 


如 果 需 要 带 有 头 信息 的 文本 ， 可 选用 text_with_headers。 


7.1.8 ”负载 均衡 和 单 点 失败 


为 了 解决 Flume 接收 器 的 单 点 失败 的 问题 ，Flume 支持 接收 器 组 的 概念 ， 通 过 负载 平衡 将 事 
件 发 送 到 不 同 的 接收 器 。 下 面 我 们 设置 了 一 个 名 叫 sg 的 接收 器 组 ， 这 个 组 包含 了 四 个 接收 器 
kl、k2、k3 和 k4: 


如 果 将 上 述 的 processortype 设置 为 load_balance， 那 么 ， 就 会 使 用 循环 模式 来 均衡 地 对 这 四 
个 接收 器 进行 流量 的 负载 。 对 于 failover 设置 ， 就 是 指 当 某 个 接收 器 不 能 用 时 ， 通 过 priority 属 
性 来 指定 优先 顺序 。 在 上 述 的 例子 中 ， 先 尝试 kl， 然后 k2， 以 此 类 推 。 


7.1.9 Flume 监控 管理 


我 们 首先 要 对 Flume 代理 进程 进行 监控 ， 监 测 Flume 代理 是 否 正常 运行 。 如 果 已 经 停止 ， 
就 需要 重启 。 有 很 多 工具 ， 如 : Monit 和 Nagios 就 是 不 错 的 开源 免费 监控 工具 。 对 于 Flume 内 
部 的 监控 ， 我 们 可 以 使 用 Ganglia 工具 ， 它 是 一 个 开源 的 监控 工具 。 在 Flume 启动 时 ， 配 置 几 个 
属性 值 就 可 以 让 Flume 向 Ganglia 工具 发 送 监测 数据 : 


最 后 一 个 参数 设置 发 送 数据 给 Ganglia 的 时 间 间 阳 (单位 为 秒 )。 另 一 种 方法 是 ， 启 动 
Flume 内 部 HTTP 服务 器 ， 然 后 从 外 部 通过 HTTP 请 求 查 询 Flume 的 状态 (返回 结果 为 
JSON)。 如 果 要 使 用 这 个 方式 ， 则 在 启动 时 设置 如 下 属性 : 
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这 样 的 话 ， 就 可 以 使 用 http://hostname:9088/metrics 来 获得 JSON 数据 。 


7.1.10 “Flume 实例 


下 面 我 们 看 一 个 例子 。 某 路 由 器 厂商 想 要 分 析 各 个 家 庭 路 由 器 的 数据 。 由 于 这 个 厂商 是 给 我 
们 开放 了 他 们 的 FTP 服务 器 (他 们 自己 把 路 由 器 数据 首先 采集 到 一 个 FTP 服务 器 上 )， 所 以 ,我 
们 是 把 FTPserver 作为 数据 源 获 取 数据 的 ， 数 据 以 小 文件 的 方式 存储 在 Flume 所 监控 的 目录 池 
下 ， 文 件 会 自动 被 Flume 读 取 并 删除 ， 读 取 的 小 文件 会 直接 送 到 HDFS。 下 面 是 我 们 采集 的 具体 
步骤 : 


人 DI01 确保 Flume 已 经 安装 成 功 。 在 界面 上 查看 状态 显示 为 绿色 ， 如 图 7-7 所 示 。 


WF I 


图 7-7 界面 上 查看 状态 显示 为 绿色 


人 2 创建 Flume 的 目录 池 ， 在 /usr/hdp/2.3.0.0-2557/flume/conf 下 创建 一 个 目录 。 
《EX03 配置 Flume 如 下 : 
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GT04 启动 Flume， 并 执行 以 下 命令 : 


关于 Flume 的 更 多 内 容 ， 可 参考 以 下 网 站 : 


@ Flume 官方 网 站 : http://flume.apache.org/。 
@ Flume 用 户 文档 : http://flume.apache.org/FlumeUserGuide.html。 
@ Flume 开发 文档 : http://flume.apache.org/FlumeDeveloperGuide.html。 


7.2 Kafka 


Kafka 是 2010 年 12 月 开源 的 项 目 ， 采 用 scala 语言 编写 。Kafka 是 一 个 分 布 式 的 消息 队列 ， 
可 用 在 不 同 的 系统 之 间 传 递 数 据 。 如 图 7-8 所 示 ， 如 果 各 部 门 间 的 数据 交换 都 是 交换 双方 之 间 独 
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自 建设 的 交换 通道 。 随 着 交换 部 门 的 增多 ， 每 个 部 门 要 建设 和 维护 的 交换 通道 也 增多 ， 多 条 交换 
通道 交叉 互联 ， 最 后 形成 一 张 维 护 难度 极 大 的 数据 交换 网 络 ， 显 然 ， 这 种 数据 交换 模式 难以 满足 
大 数据 交换 和 共享 需求 。 


A 单位 
| A 单位 | 一 | B 单 位 4 
由 E 单 位 B 单 位 | 


D 单 位 | 一 一 Cc 单位 
D 单 位 一 一 | Cc 单位 | 


图 7-8 交换 网 络 扩张 示意 图 
Kafka 就 可 以 解决 上 述 问题 ， 它 可 以 担当 中 间 桥 梁 。 如 图 7-9 所 示 ， 它 使 用 了 多 种 优化 机 
制 ， 整 体 架构 比较 新 颖 push/pull)， 更 适合 异 构 集群 。 它 实现 了 高 否 吐 率 ， 在 普通 的 服务 器 上 
每 秒 也 能 处 理 几 十 万 条 消息 。 比 如 : LinkedIn 公司 每 天 通过 Kafka 运行 着 超过 600 亿 个 不 同 的 消 


息 写 入 点 。 
{Producer) Front End Front End | Front End 
ea ea \_---CDu____ 
(Broker) 
(Pul) 

Real-time Other Data 闻 机 

(Consumer) monitoring i 271 
ks Cn 


7.2.1 Kafka 架构 


Kafka 提供 了 类 似 于 JMS 的 特性 ， 但 是 在 设计 实现 上 完全 不 同 〈 它 并 不 是 JMS 规范 的 实 
现 )。 在 消息 保存 时 ，Kafka 根据 Topic 进行 归 类 ， 发 送 消息 者 成 为 Producer， 消 息 接受 者 成 为 
Consumer。 此 外 ，Kafka 集群 由 多 个 Kafka 实例 组 成 ， 每 个 实例 〈server) 成 为 Broker。 无 论 是 
Kafka 集群 ， 还 是 Producer 和 Consumer 都 依赖 于 Zookeeper 来 保证 分 布 式 协作 。 每 条 发 布 到 
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Kafka 集群 的 消息 都 有 一 个 类 别 ， 这 个 类 别 被 称 为 Topic。 物 理 上 不 同 Topic 的 消息 分 开 存储 ， 逻 
辑 上 一 个 Topic 的 消息 虽然 保存 于 一 个 或 多 个 Broker 上 ， 但 用 户 只 需 指定 消息 的 Topic， 即 可 生 
产 或 消费 数据 而 不 必 关 心 数据 存 于 何 处 。 

Kafka 实际 上 是 一 个 消息 发 布 订阅 系统 。Producer( 生 产 者 ) 向 某 个 Topic 发 布 消息 ， 而 
Consumer〔 消 费 者 ) 订阅 某 个 Topic 的 消息 ， 进 而 一 旦 有 新 的 关于 某 个 Topic 的 消息 ，Broker 会 
传递 给 订阅 它 的 所 有 Consumer。 在 Kafka 中 ， 消 息 是 按 Topic 组 织 的 ， 而 每 个 Topic 又 分 为 多 个 
partition， 这 样 便于 管理 数据 和 进行 负载 均衡 。 同 时 ， 它 也 使 用 了 Zookeeper 进行 负载 均衡 。 
Kafka 中 主要 有 三 种 角色 ， 分 别 为 Producer、Broker 和 Consumer。 


(1) Producer (生产 者 ) 
Producer 用 于 将 流 数据 发 送 到 Kafka 消息 队列 上 ， 它 的 任务 是 向 Broker 发 送 数据 。Kafka 提 
供 了 两 种 Producer 接口 ， 一 种 是 low level 接口 ， 使 用 该 接口 会 向 特定 的 Broker 的 某 个 Topic 下 
的 某 个 partition 发 送 数据 ， 另 一 种 是 high level 接口 ， 该 接口 支持 同步 /异步 发 送 数据 ， 基 于 
Zookeeper 的 Broker 自动 识别 和 负载 均衡 (基于 Partitioner)。Producer 可 以 通过 Zookeeper 获取 
可 用 的 Broker 列表 ， 也 可 以 在 Zookeeper 中 注册 listener， 该 listener 在 以 下 情况 下 会 被 唤醒 : 


@ 添加 一 个 Broker。 

删除 一 个 Broker。 

注册 新 的 Topic。 

Broker 注册 已 存在 的 Topic。 


当 Producer 得 知 以 上 事件 时 ， 可 根据 需要 采取 一 定 的 行动 。 以 日 志 采 集 为 例 ， 生 产 过 程 分 
为 三 部 分 : 第 一 部 分 为 监控 日 志 采 集 的 本 地 日 志文 件 或 目录 ， 如 果 有 变化 ， 则 将 变化 的 内 容 逐 行 
读 取 到 内 存 的 消息 队列 中 。 第 二 部 分 是 连接 Kafka 集群 ， 这 包括 一 些 配置 信息 ， 比 如 : 是 否 压 
缩 、 超 时 等 。 第 三 部 分 是 用 于 将 已 经 获取 的 数据 通过 上 述 的 连接 ， 发 送 到 Kafka 集群 中 ， 是 一 个 
推送 的 过 程 。 

(2) Broker 


Kafka 集群 包含 一 个 或 多 个 服务 器 ， 这 种 服务 器 被 称 为 Broker。Broker 采取 了 多 种 策略 提高 
数据 处 理 效率 ， 包 括 sendfile 和 zero copy 等 技术 。 


(3) Consumer (消费 者 ) 

Consumer 的 作用 是 处 理 数据 ， 比 如 : 将 信息 加 载 到 持久 化 存储 系统 上 。Kafka 提供 了 两 种 
Consumer 接口 ， 一 种 是 low level 的 ， 它 维护 到 某 一 个 Broker 的 连接 ， 并 且 这 个 连接 是 无 状态 
的 ， 即 每 次 从 Broker 上 pull 数据 时 ， 都 要 告诉 Broker 数据 的 偏 移 量 。 另 一 种 是 high level 接 
口 ， 它 隐藏 了 Broker 的 细节 ， 人 允许 Consumer 从 Broker 上 pull 数据 而 不 必 关 心 网 络 拓扑 结构 。 
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kafka 与 JMS (Java Message Service) 实现 的 不 同 之 处 是 ， 即 使 消息 被 消费 ， 消 息 不 会 被 立 
即 删除 。 它 将 会 根据 Broker 中 的 配置 要 求 ， 保 留 一 定 的 时 间 之 后 才 删 除 。 比 如 log 文件 保留 2 
天 ,那么 两 天 后 ， 文 件 会 被 清除 ， 无 论 其 中 的 消息 是 否 被 消费 。Kafka 通过 这 种 简单 的 方式 来 释放 
磁盘 空间 ， 以 减少 消息 消费 之 后 产生 太 多 的 磁盘 IO。 在 JMS 实现 中 ，Topic 模型 基于 push 方 
式 ， 即 Broker 将 消息 推送 给 Consumer 端 。 而 在 Kafka 中 ， 则 采用 了 pull 方式 ， 即 Consumer 在 
和 Broker 建立 连接 之 后 ， 主 动 去 pull (或 者 说 fetch) 消息 。 这 种 模式 有 些 优点 ， 首 先 Consumer 
端 可 以 根据 自己 的 消费 能 力 适 时 地 去 获取 消息 并 处 理 ， 且 可 以 控制 消息 消费 的 进度 offset)。 此 
外 ， 消 费 者 可 以 良好 地 控制 消息 消费 的 数量 。 


7.2.3” Kafka 性 能 考虑 


Kafka 集群 几乎 不 需要 维护 任何 Consumer 和 Producer 状态 信息 ， 这 些 信 息 有 Zookeeper 保 
存 。 因 此 Producer 和 Consumer 的 客户 端 实现 非常 轻 量 级 ， 它 们 可 以 随意 离开 ， 而 不 会 对 集群 造 
成 额外 的 影响 。 

Kafka 是 基于 文件 存储 。 通 过 分 区 (partiton)， 可 以 将 文件 内 容 分 散 到 多 个 server 上 来 避免 
文件 大 小 达到 单机 磁盘 的 上 限 ， 每 个 分 区 都 会 被 当前 server (Kafka 实例 ) 保存 。 我 们 可 以 将 一 
个 Topic 切 分 为 多 个 分 区 来 提高 消息 保存 /消费 的 效率 。 此 外 ， 越 多 的 分 区 意味 着 可 以 容纳 更 多 
的 Consumer， 有 效 提升 并 发 消费 的 能 力 。 

对 于 一 些 常规 的 消息 系统 ，Kafka 是 个 不 错 的 选择 。partitons/replication 和 容错 功能 可 以 使 
Kafka 具有 良好 的 扩展 性 和 性 能 优势 。 影 响 Kafka 性 能 的 因素 很 多 ， 除 磁盘 IO 之 外 ， 我 们 还 需 
要 考虑 网 络 IJO， 这 直接 关系 到 Kafka 的 吞 叶 量 问题 。 对 于 Producer 端 ， 可 以 将 消息 buffer 起 
来 。 当 消息 的 条 数 达 到 一 定 阀 值 时 ， 批 量 发 送 给 Broker; 对 于 Consumer 端 也 是 一 样 ， 批 量 抓 取 
多 条 消息 ， 消 息 量 的 大 小 可 以 通过 配置 文件 来 指定 。 对 于 Kafka Broker 端 ， 将 文件 的 数据 映射 到 
系统 内 存 中 ，socket 直接 读 取 相应 的 内 存 区 域 即 可 ， 而 无 须 再 次 拷贝 和 交换 。 对 于 
Producer/Consumer/Broker 三 者 而 言 ，CPU 的 开支 应 该 都 不 大 ， 因 此 启用 消息 压缩 机 制 是 一 个 良 
好 的 策略 。 压 缩 需要 消耗 少量 的 CPU 资源 ， 但 减少 了 网 络 IO 的 开销 。Kafka 支持 gzip/snappy 
等 多 种 压缩 方式 。 
生产 者 采用 了 负载 均衡 : Producer 将 会 和 Topic 下 所 有 partition leader 保持 socket 连接 ; 消 
息 由 Producer 直接 通过 socket 发 送 到 Broker， 中 间 不 会 经 过 任何 路 由 层 。 事 实 上， 消息 被 路 由 
到 哪个 分 区 上 ， 有 Producer 客户 端 决定 。 如 果 一 个 Topic 中 有 多 个 分 区 ， 那 么 在 Producer 端 实现 
“消息 均衡 分 发 ”是 必要 的 。 其 中 partition leader 的 位 置 (hostport) 注册 在 Zookeeper 中 ， 
Producer 作为 Zookeeper client， 已 经 注册 了 watch 用 来 监听 partition leader 的 变更 事件 。 我 们 也 
可 以 采用 异步 发 送 ， 即 : 将 多 条 消息 暂且 在 客户 端 buffer 起 来 ， 并 将 他 们 批量 发 送 到 Broker， 小 
数据 IO 太 多 ， 会 拖 慢 整体 的 网 络 延 迟 ， 批 量 延 迟 发 送 事实 上 提升 了 网 络 效率 。 不 过 这 也 存在 一 
定 的 隐患 ， 比 如 说 ， 当 Producer 失效 时 ， 那 些 尚未 发 送 的 消息 将 会 丢失 。 
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7.2.4 消息 传送 机 制 
对 于 JMS 实现 ， 消 息 传输 机 制 只 有 一 种 ， 有 且 只 有 一 次 《exactly once)。 在 Kafka 中 稍 有 不 同 : 


@ at most once: 最 多 一 次 ， 这 个 和 JMS 中 “ 非 持 久 化 ”消息 类 似 。 发 送 一 次 ， 无 论 成 
败 ， 将 不 会 重 发 。 

@ atleastonce: 消息 至 少 发 送 一 次 ， 如 果 消 息 未 能 接受 成 功 ， 可 能 会 重 发 ， 直 到 接收 成 功 。 

@ exactly once: 消息 只 会 发 送 一 次 。 


在 上 面 的 at most once 模式 中 ， 消 费 者 获取 消息 ， 保 存 offset， 然 后 处 理 消 息 。 当 client 保存 
offset 之 后 ， 在 消息 处 理 过 程 中 出 现 了 异常 ， 导 致 部 分 消息 未 能 继续 处 理 。 那 么 此 后 “未 处 理 ” 
的 消息 将 不 能 被 获取 到 ， 这 就 是 “at most once”。 而 “at least once” 是 消费 者 获取 消息 ， 处 理 消 
息 ， 然 后 保存 offset。 在 消息 处 理 成 功 之 后 ， 但 在 保存 offset 阶段 Zookeeper 异常 而 导致 保存 操作 
未 能 执行 成 功 ， 这 就 导致 接 下 来 再 次 获取 时 ， 可 能 获得 上 次 已 经 处 理 过 的 消息 ， 这 就 是 “at least 
once”。 原 因 是 offset 没有 及 时 地 提交 给 Zookeeper，Zookeeper 恢复 正常 后 还 是 之 前 offset 状 
态 。“exactly once” 在 Kafka 中 并 没有 严格 地 去 实现 ， 这 种 策略 在 Kafka 中 可 能 是 不 需要 的 。 

通常 情况 下 ，“at least once” 是 我 们 的 首选 。 相 比 “at most once” 而 言 ， 重 复 接收 数据 总 比 
丢失 数据 要 好 。 


7.2.5 Kafka 和 Flume 的 比较 


Kafka 和 Flume 这 两 个 产品 的 功能 有 些 重合 ， 但 是 也 有 一 些 区 别 : 


@ Kafka 是 一 个 更 加 通用 的 系统 。 你 可 以 有 很 多 数据 的 Producer 和 数据 的 Consumer。 这 
此 Consumer 之 间 共 享 多 个 主题 。 而 Flume 主要 是 为 了 发 送 数 据 给 HDFS 和 HBase 用 
的 工具 。Flume 集成 了 Hadoop 的 安全 体系 。Cloudera 认为 ， 如 果 数 据 将 被 多 个 系统 所 
消费 ， 那 么 采用 Kafka。 

@ Flume 具有 多 个 内 置 的 源 和 sink， 相 对 而 言 ，Kafka 只 有 一 个 较 少 的 Producer 和 
Consumer 生态 圈 。 所 以 ， 如 果 Flume 的 源 和 sink 正好 满足 你 的 要 求 ， 而 且 你 希望 使 用 
一 个 不 需要 开发 的 采集 系统 (只 需要 配置 ) ， 那 么 ， 你 就 使 用 Flume。 如 果 你 自己 想 开 
发 一 个 采集 系统 ， 那 就 基于 Kafka 开发 。 

@ ”Flume 可 以 使 用 interceptors 来 即时 处 理 数据 ， 这 会 对 数据 过 滤 有 必 助 ; Kafka 需要 外 部 
的 流 处 理 系统 来 完成 这 个 功能 。 

@ Flume 和 Kafka 都 是 可 靠 的 系统 ， 都 可 以 保证 数据 不 会 丢失 。 但 是 ，Flume 不 复制 事 
件 。 因 此 ， 你 即使 使 用 了 可 靠 的 文件 channel， 如 果 一 个 Flume 代理 的 节点 崩溃 ， 你 就 
无 法 访问 这 个 节点 上 的 事件 (直到 你 恢复 了 这 个 硬盘 的 访问 ) 。 如 果 你 需要 一 个 很 强 
的 高 可 用 性 的 输入 管道 ， 那 么 ， 优 先 使 用 Kafka。 

@@ Flume 和 Kafka 可 以 一 起 工作 。 如 果 你 需要 从 Kafka 流 数 据 到 Hadoop， 那 么 ， 你 可 以 
将 Flume 代理 和 Kafka 源 一 起 使 用 来 读 取 数 据 。 这 样 的 话 ， 你 就 不 需要 实现 你 自己 的 
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Consumer 了 ， 你 获得 了 所 有 与 HDFS 和 HBase 完美 集成 的 Flume 的 好 处 了 。 


7.3 Sqoop 


Sqoop 是 SQL to Hadoop 的 缩写 ， 是 一 个 数据 库 导入 导出 工具 ， 可 以 将 数据 从 Hadoop 导入 
到 关系 数据 库 ， 或 从 关系 数据 库 将 数据 导入 到 Hadoop 中 。Sqoop 使 用 了 MapReduce 来 导入 导出 
数据 ， 充 分 利用 了 MapReduce 的 并 行 性 和 容错 性 。Sqoop 主要 是 在 Linux 环境 下 使 用 。 你 可 以 
直接 运行 Sqoop 命令 : 


7.3.1 ”从 数据 库 导入 HDFS 


Sqoop 支持 从 关系 型 数据 库 导入 表 数 据 到 HDFS 的 文件 上 。 导 入 过 程 可 以 是 并 行 的 ， 可 以 产 
生 多 个 文件 ， 每 个 文件 包含 一 些 表 数据 。 下 面 我 们 看 几 个 例子 。 


(1) 在 MySQL 创建 表 
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(2) 给 MySQL 表 装 载 一 些 测试 数据 


(3) 将 表 数 据 导 入 到 HDFS 文件 中 ， 一 行 表 数 据 为 文件 的 一 行 


在 上 述 命令 中 ，-m 参数 决定 了 将 会 启动 多 少 个 mapper 来 执行 数据 导入 (只 有 一 个 “-” 的 
参数 叫做 通用 参数 )。 因 为 上 述 例子 将 -m 设置 为 1， 所 以 就 启动 了 1 个 mapper 用 于 导入 数据 。 
每 个 mapper 将 产生 一 个 独立 的 文件 。--connect 参数 定义 了 JDBC 驱动 (有 两 个 “-” 的 参数 叫做 
工具 相关 参数 ) 以 用 来 连接 数据 库 ，--table 参数 告诉 了 Sqoop 哪个 表 的 数据 需要 被 导出 ，-- 
target-dir 参数 决定 了 导出 的 表 数 据 将 被 存储 在 HDFS 的 哪个 目录 下 。 导 出 的 文件 可 以 是 一 个 包含 
了 定 界 符 的 文本 文件 ， 也 可 以 通过 设置 其 他 参数 来 指定 数据 文件 的 格式 为 avro 文件 或 序列 化 的 
文件 。 

你 可 以 将 上 述 的 常用 参数 和 参数 值 放 到 一 个 文件 中 ， 这 样 就 省 得 每 次 都 把 一 堆 命令 敲 在 
Sqoop 后 面 了 。 比 如 : 


而 在 import.txt 文件 中 ， 我 们 有 如 下 设置 : 


Sqoop 还 提供 了 sqoop-job 的 功能 。 与 上 面 的 例子 不 同 ， 我 们 可 以 把 常用 的 配置 信息 在 
Sqoop 上 以 job 的 形式 保存 (而 不 是 上 面 的 文件 )。 比 如 : 


然后 可 以 执行 这 个 保存 的 job: 


Sqoop 支持 对 表 的 部 分 数据 导入 到 HDFS 文件 上 。 下 面 表 7-4 列 出 了 import 的 常用 参数 。 
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表 7-4 import 的 常用 参数 


参数 说 明 
一 append 附加 数据 到 HDFS 的 一 个 已 经 存在 的 数据 集 上 
一 as-avrodatafile 导入 数据 到 Avro Data Files 


—as-sequencefile 


导入 数据 到 SequenceFiles， 这 是 一 个 二 进 制 格 式 的 序列 化 的 文件 


导入 数据 为 一 个 文本 文件 〈 默 认 值 ) 。 一 行 数据 为 文件 的 一 行 ， 每 个 列 之 间 有 定 


界 符 分 隔 开 。 分 隔 符 包括 逗号 、tab 或 其 他 的 
—as-parquetfile 导入 数据 到 Parquet 文 件 
一 boundary-query <statement> ”| 边界 查询 ， 用 于 创建 分 割 


—columns <col,col,col*…*> 


—delete-target-dir 


—direct 


一 人 etch-size <n> 


-inline-lob-limit <n> 


-m,--num-mappers <n> 


指定 导入 表 上 的 哪些 列 
如 果 导 入 的 目标 目录 已 经 存在 ， 则 删除 之 


直接 使 用 数据 库 支持 的 本 地 导入 导出 工具 。 比 如 : MySQL 自己 提供 了 一 个 
mysqldump 工具 ， 该 工具 比 JDBC 连接 的 方式 快 。 这 个 参数 可 以 直接 使 用 这 个 工具 


指定 一 次 从 数据 库 读 取 的 行 数 
对 一 个 inline LOB 设置 最 大 大 小 


决定 了 将 会 启动 多 少 个 mapper 来 执行 数据 导入 ， 每 个 mapper 将 产生 一 个 独立 的 
文件 


-e,--query <statement> 


-~-Split-by <column-name> 


—autoreset-to-one-mapper 


~table <table-name> 


指定 查询 语句 
指定 一 个 表 的 列 ， 这 个 列 用 于 分 割 工作 单元 。 比 如 : 指定 了 ID 列 , 该 ID 有 


0~1000 的 数值 ， 我 们 又 指定 了 -m 4， 那 么 ， 并 行 执行 的 导入 进程 将 分 别处 理 
(0,250) 、 (250,500) 、 (500.750) 和 (750,1000) 


如 果 这 个 表 没有 主键 ， 而 且 没 提供 splitby 列 ， 则 导入 命令 只 使 用 一 个 mapper 
指定 表 


target-dir <dir> 导出 的 表 数 据 将 被 存储 在 HDFS 的 哪个 目录 下 
--warehouse-dir <dir> 指定 HDFS 文件 目录 的 父 目录 
—where <where clause> WHERE 语句 


-Z, 一 coOmpress 


启用 压缩 ， 即 : 在 导入 的 过 程 中 对 数据 进行 压缩 ， 默 认 的 压缩 方式 为 GZIP 压缩 


-compression-codec <c> 


—null-string <null-string> 


使 用 Hadoop 支持 的 压缩 编码 默认 为 gzip) 
对 于 字符 串 列 ， 用 该 字符 串 来 蔡 代 null 值 


—null-non-string <null-string> 


对 于 非 字符 串 列 ， 用 该 字符 串 来 替代 null 值 


比如 ， 下 面 这 个 例子 就 是 使 用 一 个 SELECT 语句 来 指定 想 要 导入 的 数据 : 


sqoop eval --connect jdbc:mysql://192.168.2.100:3306/hive --username 
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执行 结果 如 图 7-10 所 示 。 


e250 
:34 和 COmand-1ine 15 insecure, Consider using -P instead. 
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7-10 ”导入 的 数据 命令 执行 结果 


7.3.2 ” 增 量 导入 


Sqoop 提供 了 增 量 导入 的 功能 ， 能 够 从 上 次 导入 的 点 上 导入 新 增 的 数据 。 下 面 是 同 增 量 导入 
相关 的 参数 ， 如 表 7-5 所 示 。 


表 7-5 同 增 量 导入 相关 的 参数 


指定 要 检查 的 列 〈 以 这 个 列 值 为 基础 确定 哪些 列 要 导入 ) 。 这 个 列 不 能 是 CHAR/ 
NCHAR/VARCHAR/VARNCHAR/ LONGVARCHAR/ILONGNVARCHAR 类 型 


--incremental (mode) ”| 指定 sqoop 如 何 确定 哪些 行 是 新 的 ， 包 括 了 append 和 lastmodified 两 个 选项 
指定 了 从 上 次 导入 后 的 检查 列 的 最 大 值 


--check-column (col) 


—last-value (value) 


当 一 个 表 上 的 数据 持续 增加 时 ， 我 们 可 以 使 用 Sqoop 的 append 模式 来 把 新 增 的 数据 放 到 
HDFS 上 。 假 定 这 个 表 的 ID 列 是 持续 增加 的 ， 那么， 你 可 以 指定 check-column 为 ID。 通 过 last- 
value 参数 ， 我 们 可 以 导入 所 有 大 于 这 个 值 的 行 。lastmodified 模式 适合 表 数 据 被 更 新 了 ， 更 新 后 
的 时 间 戳 列 上 有 最 新 的 时 间 。 下 面 是 一 个 增 量 导入 的 例子 ， 在 已 经 导入 了 前 100000 行 之 后 ， 再 
导入 新 增 的 行 数 : 


7.3.3 将 数据 从 Oracle 导入 Hive 


虽然 Sqoop 的 主要 功能 是 将 数据 库 的 数据 导入 到 HDFS 上 ， 但 是 它 也 支持 将 数据 导入 到 
Hive 上 。 它 会 生成 CREATE TABLE 语句 ， 并 在 Hive 上 执行 这 个 语句 。 下 面 是 一 个 从 Oracle 导 
入 数据 到 Hive 的 例子 : 
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下 面 的 create-hive-table 工具 根据 INPCASE.INP_DIAG 表 的 定义 ， 在 Hive 的 metastore 中 定 
义 了 表 INP_DIAG1: 


7.3.4 将 数据 从 Oracle 导入 HBase 


通过 指定 “--hbase-table” 参 数 ，Sqoop 支持 把 数据 导入 到 HBase 数据 库 的 表 上 。 源 表 上 的 
每 行 数据 都 被 转化 为 在 HBase 输出 表 上 的 put 操作 。 默 认 情 况 下 ，Sqoop 使 用 split-by 列 作为 行 
键 列 。 如 果 没 有 指定 这 个 参数 ，Sqoop 将 使 用 主键 列 〈 如 果 有 的 话 )。 通 过 “一 hbase-row-key” 
参数 也 可 以 指定 行 键 列 。 下 面 是 一 个 将 数据 从 Oracle 导入 到 HBase 的 例子 : 


下 面 是 一 个 XML 类 型 的 例子 : 
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7.3.5 ”导入 所 有 表 


Sqoop 支持 将 数据 库 里 的 所 有 表 导 入 到 HDFS 中 ， 每 个 表 在 HDFS 中 都 对 应 一 个 独立 的 目 
录 。 比 如 : 


7.3.6 从 HDFS 导出 数据 


Sqoop 的 export 工具 可 以 从 HDFS 导出 数据 到 关系 型 数据 库 。 目 标的 数据 表 必 须 在 数据 库 中 
已 经 存在 。Sqoop 的 导出 功能 有 三 种 模式 : INSERT 模式 〈 默 认 模式，Sqoop 创建 INSERT 语 
句 )、UPDATE 模式 (创建 UPDATE 语句 ) 和 CALL 模式 (为 每 个 记录 调用 一 次 存储 过 程 )。 比 


| 


上 面 的 命令 将 /results/bar_data 下 的 文件 中 的 数据 导入 到 foo 数据 库 的 bar 表 中 。-m 参数 指定 
了 配置 多 少 个 mapper 来 读 取 HDFS 上 文件 块 。 在 导出 时 ， 每 个 并 行 的 mapper 进程 各 自 建立 一 
个 单独 的 数据 库 连 接 。 每 个 语句 将 会 插入 100 条 记录 ， 当 完成 100 条 语句 也 就 是 插入 10000 条 记 
录 ， 将 会 提交 当前 事务 。 


7.3.7 ”数据 验证 
Sqoop 提供 了 数据 导出 导入 的 验证 功能 ， 能 够 比较 数据 源 与 目标 之 间 的 行 数 。 比 如 : 


对 于 导入 功能 ， 数 据 验证 功能 目前 只 能 验证 从 一 个 表 到 HDFS 的 数据 拷贝 。 


7.3.8 其 他 Sqoop 功能 
Sqoop 还 提供 了 其 他 功能 。 比 如 : sqoop-merge 可 以 合并 两 个 数据 集 的 数据 。sqoop-eval 让 我 
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们 只 是 执行 对 数据 库 的 查询 ， 并 在 控制 台 上 打印 出 结果 来 。 这 样 的 话 ， 就 可 以 让 我 们 验证 这 些 查 
询 语句: 


sqoop list-databases 可 列 出 服务 器 上 的 数据 库 信 息 。 比 如 : 


sqoop list-tables 可 列 出 数据 库 上 的 表 信息 。 比 如 : 


sqoop help 列 出 所 有 的 工具 信息 。 比 如 : 


sqoop-version 可 以 打印 出 Sqoop 的 版 本 信息 。 


166 


7。 4 Storm 


Hadoop 作为 一 个 擅长 批量 离线 处 理 的 框架 ， 不 适合 海量 数据 的 实时 处 理 ， 而 流 处 理 框架 的 
出 现 恰恰 能 满足 这 一 点 。 在 数据 流 模型 中 ， 需 要 处 理 的 输入 数据 〈 全 部 或 部 分 ) 并 不 存储 在 可 随 
机 访问 的 磁盘 或 内 存 中 ， 它 们 以 一 个 或 多 个 “连续 数据 流 ” 的 形式 到 达 〈 比 如 : 视频 流 )。 数 据 
流 模型 的 特点 在 于 : 


@。 流 中 的 数据 元 素 在 线 到 达 ， 需 要 实时 处 理 。 

@。 系统 无 法 控制 将 要 处 理 的 、 新 到 达 的 数据 元 素 的 顺序 ， 无 论 这 些 数 据 元 素 是 在 一 个 数 
据 流 中 还 是 跨 多 个 数据 流 。 

@ ”数据 流 的 潜在 大 小 也 许 是 无 穷 无尽 的 。 

@ ”一 旦 数据 流 中 的 某 个 元 素 经 过 处 理 ， 要 么 丢 齐 ， 要 么 被 归档 存储 。 


Storm 就 是 一 套 专门 用 于 事件 流 处 理 的 分 布 式 计算 框架 ， 由 Twitter 贡献 ， 于 2014 年 9 月 正 
式 成 为 Apache 旗下 的 顶级 项 目 之 一 。Storm 大 大 简化 了 面向 庞大 规模 数据 流 的 处 理 机 制 ， 从 而 
在 实时 处 理 领 域 扮演 着 Hadoop 之 于 批量 处 理 领域 的 重要 角色 。Storm 支持 容错 和 水 平 扩展 。 

Storm 是 由 Clojure 和 Java 编写 而 成 ， 设 计 目 标 在 于 支持 将 “ 流 ” (spout 或 者 Spout， 即 输 
入 流 模块 ) 与 “ 栓 ” (bolt 或 者 Bolt， 即 处 理 与 输出 模块 ) 结 合 在 一 起 并 构成 一 套 有 向 无 环 图 
(简称 DAG) 拓扑 结构 。Storm 的 拓扑 结构 运行 在 集群 之 上 ， 而 Stomm 调度 程序 则 根据 具体 拓扑 
(CTopology) 配置 ， 将 处 理 任 务 分 发 给 集群 当中 的 各 个 工作 节点 。Storm 保证 每 个 消息 至 少 能 够 
得 到 一 次 完成 的 处 理 。 任 务 失败 时 ， 它 会 负责 从 消息 源 重 试 消息 。Storm 的 应 用 场景 主要 为 以 下 
三 类 ; 


@ ”信息 流 处 理 (streaming processing ) : Storm 可 用 来 实时 处 理 新 数据 和 更 新 数据 库 ， 兼 
顾 容 错 性 和 扩展 性 。 不 像 其 他 的 流 处 理 系统 ，Storm 不 需要 中 间 队 列 ; 

@ ”持续 计算 (Continuous computation ) : Storm 可 进行 持续 查询 并 把 结果 即时 反馈 给 客户 
端 ; 

@ 分布 式 远程 程序 调用 (Distributed RPC ) : 当 Storm 收 到 一 条 调用 信息 后 ， 会 对 查询 进 
行 计算 ， 并 返回 查询 结果 。 


Storm 的 关注 重点 放 在 了 实时 、 以 流 为 基础 的 处 理 机 制 上 ， 因 此 其 拓扑 结构 默认 永远 运行 或 
者 说 直到 手动 中 止 。 一 旦 拓扑 流程 启动 ， 挟 带 着 数据 的 流 就 会 不 断 涌 入 系统 ， 并 将 数据 交付 给 栓 
(而 数据 仍 将 在 各 栓 之 间 循 流程 继续 传递 )， 这 正 是 整个 计算 任务 的 主要 实现 方式 。 随 着 处 理 流 
程 的 推进 ， 一 个 或 者 多 个 栓 会 把 数据 写 入 至 数据 库 或 者 文件 系统 当中 ， 并 向 另 一 套 外 部 系统 发 出 
消息 或 者 将 处 理 获 得 的 计算 结果 提供 给 用 户 。 
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Storm 是 一 个 分 布 式 的 、 可 靠 的、 容错 的 数据 流 处 理 系 统 。Storm 主要 包含 有 几 个 术语 : 
spout、bolt、topology、streams、task、worker。 在 Storm 中 ， 我 们 首先 要 设计 一 个 用 于 实时 计算 
的 图 状 结构 ， 一 般 称 之 为 拓扑 〈Topology)。 这 个 拓扑 将 会 被 提交 给 集群 ， 由 集群 中 的 主 控 节 点 
(master node) 分 发 代码 ， 将 任务 分 配给 工作 节点 (worker node) 执行 。 在 Java 代码 中 ， 我 们 
可 以 通过 TopologyBuilder 类 来 构建 拓扑 。 

-个 拓扑 中 包括 spout 和 bolt 两 种 组 件 (角色 )， 每 个 组 件 负责 处 理 一 项 简单 特定 的 任务 。 
其 中 spout 发 送 消 息 ， 负 责 将 数据 流 以 tuple〈 元 组 ) 的 形式 发 送出 去 ， 而 bolt 则 负责 转换 这 些 数 
据 流 ， 在 bolt 中 可 以 完成 计算 、 过 滤 等 操作 ，bolt 自身 也 可 以 将 数据 发 送 给 其 他 bolt。 因 此 ， 
Storm 集群 的 输入 流 由 spout 组 件 管理 ，spout 把 数据 传递 给 bolt，bolt 要 么 把 数据 保存 到 某 种 存 
储 器 ， 要 么 把 数据 传递 给 其 他 的 bolt。 你 可 以 想象 一 下 ， 一 个 Storm 集群 就 是 在 一 连 串 的 bolt 之 
间 转 换 spout 传 过 来 的 数据 。 下 面 图 7-11 所 示 是 一 个 Topology 的 结构 示意 图 。 


7-11 拓扑 示意 图 


如 图 7-11 所 示 ，Spout 作为 Storm 中 的 消息 源 ， 用 于 为 Topology 生产 消息 (数据 )， 一 般 是 
从 外 部 数据 源 (如 Message Queue、RDBMS、NoSQL、 日 志文 件 ) 不 间断 地 读 取 数 据 并 发 送 
Topology 消息 (tuple 元 组 )。 而 Bolt 作为 Storm 中 的 消息 处 理 者 ， 用 于 为 Topology 进行 消息 的 
处 理 ，Bolt 可 以 执行 过 滤 、 聚 合 、 查 询 数据 库 等 操作 ， 而 且 可 以 一 级 一 级 地 进行 处 理 。 最 终 ， 
Topology 会 被 提交 到 Storm 集群 中 运行 ， 也 可 以 通过 命令 停止 Topology 的 运行 ， 将 Topology 占 
用 的 计算 资源 归还 给 Storm 集群 。 

数据 流 〈Stream) 是 Storm 中 对 数据 进行 的 抽象 ， 它 是 tuple 元 组 序列 。 在 Topology 中 ， 
Spout 是 Stream 的 源头 ， 负 责 为 Topology 从 特定 数据 源 发 射 Stream; Bolt 可 以 接收 任意 多 个 
Stream 作为 输入 ， 然 后 进行 数据 的 加 工 处 理 过程 ， 如 果 需 要 ，Bolt 还 可 以 发 射出 新 的 Stream 给 
下 级 Bolt 进行 处 理 。 

Topology 中 每 一 个 计算 组 件 〈Spout 和 Bolt) 都 有 一 个 并 行 执行 度 ， 在 创建 Topology 时 可 以 
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指定 ，Storm 会 在 集群 内 分 配对 应 并 行 度 个 数 的 task 线程 来 同时 执行 这 一 组 件 。 

一 个 Spout 或 Bolt 都 会 有 多 个 task 线程 来 运行 ， 那 么 如 何在 两 个 组 件 (Spout 和 Bolt) 之 间 
发 送 tuple 元 组 呢 ? Storm 提供 了 若干 种 数据 流 分 发 (Stream Grouping) 策略 用 来 解决 这 一 问 
题 。 在 Topology 定义 时 ， 需 要 为 每 个 Bolt 指定 接收 什么 样 的 Stream 作为 其 输入 〈 注 : Spout 并 
不 接收 Stream， 只 会 发 射 Stream)。 目 前 Storm 中 提供 了 以 下 几 种 Stream Grouping 策略 : 


7.4.2 


Shuffle Grouping: 随机 数据 流 组 ， 这 是 最 常用 的 数据 流 组 。 它 只 有 一 个 参数 ( 数据 源 
组 件 ) ， 并 且 数 据 源 会 向 随机 选择 的 bolt 发 送 tuple 元 组 ， 保 证 每 个 消费 者 收 到 近似 数 
量 的 元 组 。 

Fields Grouping: 域 数 据 流 组 ， 它 允许 你 基于 元 组 的 一 个 或 多 个 域 控制 如 何 把 元 组 发 送 
给 bolt。 它 保证 拥有 相同 域 组 合 的 值 集 发 送 给 同一 个 bolt。 在 下 节 的 单词 计数 器 的 例子 
中 ， 使 用 了 这 种 域 数据 流 分 组 ， 它 只 会 把 相同 单词 的 元 组 发 送 给 同一 个 bolt 实例 。 

All Grouping: 全 部 数据 流 组 ， 为 每 个 接收 数据 的 实例 复制 一 份 元 组 副本 。 这 种 分 组 方 
式 用 于 向 bolt 发 送信 号 。 比 如 ， 你 要 刷新 缓存 ， 你 可 以 向 所 有 的 bolt 发 送 一 个 刷新 缓 
存 信号 。 

Global Grouping: 全 局 数据 流 组 ， 把 所 有 数据 源 创建 的 元 组 发 送 给 单一 目标 实例 。 

None Grouping: 不 分 组 。 

Direct Grouping: 直接 数据 流 组 ， 这 是 一 个 特殊 的 数据 流 组 ， 数 据 源 可 以 用 它 决 定 哪个 
组 件 接收 元 组 。 比 如 ， 数 据 源 将 根据 单词 首 字 母 决定 由 哪个 bolt 接收 元 组 。 


spout 


我 们 以 一 个 实例 来 解释 Storm 的 各 个 组 件 。 这 个 程序 是 创建 一 个 简单 的 拓扑 ， 用 于 计算 单词 
数量 。spout 的 代码 如 下 : 
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spout 是 输入 流 模 块 ， 读 取 原 始 数 据 ， 为 bolt 提供 数据 。spout 最 终 会 发 送 一 个 流 
(Stream)， 就 是 文件 中 的 一 行 。 上 面 代码 中 的 注解 详细 解释 了 每 个 方法 的 作用 和 用 法 。 


7.4.3 bolt 

现在 我 们 有 了 一 个 spout， 用 来 按 行 读 取 文件 并 按照 每 行 发 布 一 个 元 组 。 我 们 还 要 创建 两 个 
bolt， 第 一 个 bolt 用 来 标准 化 单词 ， 第 二 个 bolt 为 单词 计数 。bolt 最 重要 的 方法 是 void 
execute(Tuple inputb)， 每 次 接收 到 元 组 时 都 会 被 调用 一 次 ， 还 会 再 发 布 若干 个 元 组 。 

第 一 个 bolt，WordNormalizer， 负 责 接收 并 标准 化 每 行文 本 。 它 把 文本 行 切 分 成 单词 ， 大 写 
转化 成 小 写 ， 去 掉头 尾 空白 符 。 代 码 如 下 : 


171 


大 数据 技术 入 门 是 


上 面 这 个 代码 是 在 一 次 execute 调用 中 发 布 多 个 元 组 。 如 果 这 个 方法 在 一 次 调用 中 接收 到 名 
子 “This is Samuel Yang in San Jose”， 它 将 会 发 布 7 个 元 组 。 

下 一 个 bolt，WordCounter， 负 责 为 单词 计数 。 当 拓扑 结束 时 〈cleanup() 方 法 被 调用 时 )， 它 
将 显示 每 个 单词 的 数量 。 这 个 例子 的 bolt 什么 也 没 发 布 ， 它 把 数据 保存 在 map 里 ， 但 是 在 真实 
的 场景 中 可 以 把 数据 保存 到 数据 库 。 
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从 上 面 的 例子 可 以 看 出 ，Bolt 是 这 样 一 种 组 件 ， 它 把 元 组 作为 输入 ， 然 后 产生 新 的 元 组 作为 
输出 。Bolt 拥有 如 下 方法 : 


7.4.4 拓扑 
Topology 是 拓扑 结构 ， 为 Storm 的 一 个 任务 单元 。 下 面 我 们 在 主 类 中 创建 这 个 拓扑 和 一 个 
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本 地 集群 对 象 。 我 们 要 用 一 个 spout 读 取 文本 ， 第 一 个 bolt 用 来 标准 化 单词 ， 第 二 个 bolt 为 单词 
计数 。 这 个 拓扑 决定 Storm 如 何 安排 各 节点 ， 以 及 它们 交换 数据 的 方式 。 为 了 便于 在 本 地 测试 和 
调试 ，LocalCluster 可 以 通过 Config 对 象 ， 尝 试 不 同 的 集群 配置 。 


在 生产 环境 中 ， 拓 扑 会 持续 运行 。 对 于 上 面 这 个 例子 而 言 ， 你 只 要 运行 它 几 秒 钟 就 能 看 到 结 
果 。 最 后 几 行 代码 是 调用 createTopology 和 submitTopology， 运 行 拓扑 ， 休 眠 一 秒 钟 〈 拓 扑 在 另 
外 的 线程 运行 )， 然 后 关闭 集群 。 
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在 上 面 这 个 例子 中 ， 每 类 节点 只 有 一 个 实例 。 但 是 如 果 你 有 一 个 非常 大 的 文件 呢 ? 你 能 够 很 
轻松 地 改变 系统 中 的 节点 数量 实现 并 行 工作 。 这 个 时 候 ， 你 就 要 创建 两 个 WordCounter 实例 : 
builder.setBolt ("word-counter", new 
WordCounter () ,2) .shuffleGrouping ("word-normalizer"); 


每 个 实例 都 会 运行 在 单独 的 机 器 上 。 当 你 调用 shuffleGrouping 时 ， 就 决定 了 Storm 会 以 随机 

分 配 的 方式 向 你 的 bolt 实例 发 送 消息 。 在 上 面 这 个 例子 中 ， 理 想 的 做 法 是 相同 的 单词 发 送 给 同 

- 个 WordCounter 实例 。 只 要 把 shufneGrouping( “word-normalizer ”) 换 成 
fieldsGrouping(“word-normalizer”, new Fields(“word”)) 就 能 达到 目的 。 


7.4.5 ”Storm 总 结 


在 Storm 集群 中 ， 有 两 类 节点 : 主 节点 master node 和 工作 节点 worker nodes。 主 节点 运行 着 
一 个 叫做 Nimbus 的 守护 进程 。 这 个 守护 进程 负责 在 集群 中 分 发 代码 ， 为 工作 节点 分 配 任务 ， 并 
监控 故障 。Supervisor 守护 进程 作为 拓扑 的 一 部 分 运行 在 工作 节点 上 。 一 个 Storm 拓扑 结构 在 不 
同 的 机 器 上 运行 着 众多 的 工作 节点 。 

Storm 生态 系统 的 一 大 优势 在 于 其 拥有 丰富 的 流 类 型 组 合 ， 足 够 从 任何 类 型 的 来 源 处 获取 数 
据 。Storm 适配器 的 存在 使 其 能 够 轻松 与 HDFS 文件 系统 进行 集成 ， 可 以 与 Hadoop 实现 互 操 
作 。Storm 的 另 一 大 优势 在 于 它 对 多 语言 编程 方式 的 支持 能 力 。 尽 管 Storm 本 身 基 于 Clojure 且 
运行 在 JVM 之 上 ， 其 输入 流 与 栓 仍然 能 够 通过 几乎 所 有 语言 进行 编写 。 

总 之 ，Storm 是 一 套 极 具 扩展 能 力 、 快 速 且 具 备 容错 能 力 的 开源 分 布 式 计算 系统 ， 其 高 度 专 
注 于 流 处 理 领 域 。Storm 在 事件 处 理 与 增 量 计算 方面 表现 突出 ， 能 够 以 实时 方式 根据 不 断 变 化 的 
参数 对 数据 流 进行 处 理 。 尽 管 Storm 同时 提供 原 语 以 实现 通用 性 分 布 RPC， 并 在 理论 上 能 够 被 
用 于 任何 分 布 式 计算 任务 的 组 成 部 分 ， 但 其 最 为 根本 的 优势 仍然 表现 在 事件 流 处 理 方面 。 

Storm 有 着 非常 快 的 处 理 速 度 ， 单 节点 可 以 达到 每 秒 百 万 个 元 组 ， 此 外 ， 它 还 具有 高 扩展 、 
容错 、 保 证 数据 处 理 等 特性 。 实 时 数据 处 理 的 应 用 场景 很 广泛 ， 例 如 商品 推荐 、 广 告 投放 等 ， 它 
能 根据 当前 情景 上 下 文 《用户 偏好 、 地 理 位置 、 已 发 生 的 查询 和 点 击 等 ) 来 估计 用 户 点 击 的 可 能 
性 并 实时 做 出 调整 。 


7.5 Splunk 


Splunk 既是 NASDAQ 上 市 公司 名 称 ， 也 是 产品 名 称 。 使 用 Splunk 可 以 收集 、 索 引 和 分 析 
所 有 应 用 程序 、 服 务 器 和 设备 上 生成 的 实时 数据 〈 主 要 是 日 志 数据 )， 并 完成 所 谓 的 
“Operational Intelligence〈 智 能 化 运营 )”。Splunk 能 生成 各 类 报告 、 图 表 和 仪表 板 ， 以 便 监视 安 
全 事件 和 攻击 ， 监 视 应 用 程序 SLA 和 其 他 关键 性 能 指标 ， 监 视 用 户 行为 、 机 器 行为 、 安 全 威 
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胁 、 


欺诈 活动 等 。 使 用 Splunk 可 监视 基础 结构 ， 避 免 服务 性 能 降低 或 中 断 ， 关 联 并 分 析 跨 越 多 


个 系统 的 复杂 事件 。 需 要 提醒 读者 注意 的 是 ，Splunk 不 是 一 个 开源 的 系统 。 
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Splunk 主要 是 给 IT 部 门 使 用 的 一 个 托管 的 日 志文 件 管理 工具 ， 它 的 主要 功能 包括 ; 


日 志 聚 合 功能 。 

提取 功能 。 

对 结果 进行 分 组 、 联 合 、 拆 分 和 格式 化 。 

可 视 化 功能 。 

分 析 ( 统计、 监控 、 报 警 、 安 全 事件 审计 、DDoS 攻击 监控 等 ) 。 


Splunk 是 一 个 分 布 式 的 机 器 数据 平台 ， 主 要 有 三 个 角色 : 


@ Search Head， 负 责 数 据 的 搜索 和 处 理 ， 提 供 搜索 时 的 信息 抽取 。 
@ Indexer， 负 责 数据 的 存储 和 索引 
@。 Forwarder， 负 责 数据 的 收集 ， 清 洗 ， 变 形 ， 并 发 送 给 Indexer。 


第 8 章 
< 大 数据 管 理 平 台 > 


大 数据 分 析 指 从 海量 的 原始 数据 抽取 出 有 价值 的 信息 ， 是 将 大 数据 转换 成 信息 的 过 程 。 主 要 
对 所 输入 的 各 种 形式 的 海量 数据 进行 加 工分 析 ， 其 过 程 包含 对 数据 的 收集 、 存 储 、 加 工 、 分 类 、 
归并 、 计 算 、 排 序 、 转 换 、 检 索 和 可 视 化 的 全 过 程 。 大 数据 分 析 离 不 开 数 据 质 量 和 数据 管理 ， 高 
质量 的 数据 和 有 效 的 数据 管理 ， 才 能 保证 分 析 结 果 的 真实 和 有 价值 。 还 有 ， 非 结构 化 数据 的 多 元 
化 给 大 数据 分 析 带 来 新 的 挑战 ， 我 们 需要 一 套 工 具 系统 综合 管理 结构 化 和 非 结 构 化 数据 。 

大 数据 管理 是 指 大 数据 的 收集 整理 、 组 织 、 存 储 、 维 护 、 检 索 、 传 送 等 操作 ， 是 大 数据 分 析 
的 基础 环节 ， 也 是 所 有 大 数据 分 析 过 程 中 必 有 的 共同 部 分 。 大 数据 分 析 因 业务 的 不 同 而 不 同 ， 需 
要 根据 业务 的 需要 来 编写 应 用 程序 加 以 解决 。 

大 数据 管理 比较 复杂 ， 由 于 可 利用 的 数据 呈 爆 炸 性 增长 ， 且 数据 的 种 类 繁杂 ， 从 数据 管理 角 
度 而 言 ， 不 仅 要 使 用 数据 ， 而 且 要 有 效 地 管理 数据 。 这 就 需要 一 个 通用 的 、 使 用 方便 且 高 效 的 管 
理 软件 ， 把 数据 有 效 地 管理 起 来 。 数 据 分 析 与 数据 管理 是 相互 联系 的 ， 数 据 管理 技术 的 优 劣 将 对 
数据 分 析 的 效率 产生 直接 影响 。 


大 数据 建设 总 体 架构 


目前 ， 政 府 的 信息 化 存在 基础 设施 和 系统 建设 分 散 ， 应 用 “ 烟 向 ”和 数据 “孤岛 ”林立 ， 业 
务 协同 和 信息 资源 开发 利用 水 平 低 ， 综 合 支撑 和 公众 服务 能 力 弱 等 突出 问题 ， 难 以 适应 和 满足 新 
时 期 工作 需求 。 为 了 充分 运用 大 数据 、 云 计算 等 现代 信息 技术 手段 ， 全 面 提高 政府 综合 决策 、 监 
管 治理 和 公共 服务 水 平 ， 加 快 转变 管理 方式 和 工作 方式 ， 政 府 正在 力 推 大 数据 建设 。 

大 数据 建设 需要 加 强项 层 设计 和 统筹 协调 ， 完 善 标准 体系 ， 统 一 基础 设施 建设 ， 推 动 信息 资 
源 整合 互联 和 数据 开放 共享 ， 促 进 业务 协同 ， 推 进 大 数据 创新 应 用 ， 保 障 数据 安全 。 大 数据 建设 
需要 以 大 数据 管理 平台 为 核心 ， 统 筹 整合 内 外 数据 资源 ， 边 整合 边 应 用 。 

如 图 8-1 所 示 ， 大 数据 总 体 架构 为 “一 个 机 制 、 两 套 体系 、 三 个 平台 ”。 一 个 机 制 即 大 数据 
管理 工作 机 制 ， 两 套 体系 即 组 织 保障 标准 规范 体系 、 统 一 运 维和 信息 安全 体系 ， 三 个 平台 即 大 数 
据 云 平台 、 大 数据 管理 平台 和 大 数据 应 用 平台 。 
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这 一 


大 数据 
大 数据 应 用 平台 


组 织 保障 
标准 规范 大 数据 管理 平台 


大 数据 云 平台 
图 8-1 大 数据 建设 框架 
个 机 制 、 两 套 体系 、 三 个 平台 具体 来 说 就 是 : 


一 个 机 制 : 大 数据 管理 工作 机 制 包括 数据 共享 开放 、 业 务 协同 等 工作 机 制 ， 以 及 大 数 
据 科 学 决策 、 精 准 监管 和 公共 服务 等 创新 应 用 机 制 ， 促 进 大 数据 形成 和 应 用 。 大 数据 
管理 工作 机 制 健 全 了 大 数据 标准 规范 体系 ， 保 障 了 数据 准确 性 、 一 致 性 和 真实 性 ， 强 
化 了 安全 防护 ， 保 障 了 信息 安全 。 

两 套 体 系 : 组 织 保障 标准 规范 体系 为 大 数据 建设 提供 组 织 机 构 、 人 才 资 金 及 标准 规范 等 体 
制 保障 ; 统一 运 维 信息 安全 体系 为 大 数据 系统 提供 稳定 运行 与 安全 可 靠 等 技术 保障 。 

三 个 平台 : 大 数据 平台 分 为 基础 设施 层 、 数 据 资源 层 和 业务 应 用 层 。 其 中 ， 云 平台 是 
集约 化 建设 的 IT 基础 设施 层 ， 实 施 网 络 资源 、 计 算 资源 、 存 储 资源 、 安 全 资源 的 集约 
建设 、 集 中 管理 、 整 体 运 维 ， 为 大 数据 处 理 和 应 用 提供 统一 基础 支撑 服务 ; 大 数据 管 
理 平台 是 数据 资源 层 ， 为 大 数据 应 用 提供 统一 数据 采集 、 分 析 和 处 理 等 支撑 服务 ; 大 
数据 应 用 平台 是 业务 应 用 层 ， 为 大 数据 在 各 领域 的 应 用 提供 综合 服务 。 


体系 


通过 大 数据 建设 和 应 用 ， 实 现 综合 决策 科学 化 。 将 大 数据 作为 支撑 管理 科学 决策 的 重要 手 
段 ， 为 政策 计划 提供 信息 支持 ， 实 现 “ 用 数据 决策 ”。 利 用 大 数据 支撑 实现 管理 精准 化 ， 实 现 
“用 数据 管理 ”， 提 高 管理 的 主动 性 、 准 确 性 和 有 效 性 。 实 现 政府 公共 服务 便民 化 。 运 用 大 数据 
创新 政府 服务 理念 和 服务 方式 ， 实 现 “ 用 数据 服务 ”。 利 用 大 数据 支撑 信息 公开 、 网 上 一 体 化 办 
事 和 综合 信息 服务 ， 建 立 公平 普 惠 、 便 捷 高 效 的 公共 服务 体系 ， 提 高 公共 服务 共 建 能 力 和 共享 水 
平 ， 发 挥 数据 资源 对 人 民 和 群众 生产 、 生 活 和 经 济 社会 活动 的 服务 作用 。 


呈 ,2 大 数据 管理 平台 的 必要 性 


大 数据 建设 需要 大 数据 管理 平台 ， 这 是 因为 : 
(1) 信息 孤岛 期 待 数 据 整 合 


烟 欠 式 的 系统 建设 导致 政府 和 企业 建设 了 多 个 相互 独立 的 系统 ， 这 些 系统 之 间 由 于 是 不 同 厂 
商 开 发 ， 而 且 分 属 不 同时 间 段 开 发 ， 相 互 之 间 没 有 统一 的 数据 交互 标准 ， 导 致 许多 数据 没有 统一 
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规划 ， 无 法 有 效 交 互 ， 导 致 同一 数据 分 散 管理 ， 含 义 不 同 。 大 数据 管理 平台 可 以 帮助 政府 和 企业 
建设 系统 交互 标准 ， 实 现 同一 数据 的 统一 管理 入 口 ， 并 通过 数据 实时 交互 将 数据 发 送 给 所 有 需要 
数据 的 一 方 ， 数 据 需求 方 可 实现 本 地 存储 ， 提 高 数据 查询 检索 效率 。 


(2) 渐进 式 的 大 数据 应 用 系统 建设 需要 大 数据 管理 平台 


没有 人 能 够 在 初期 就 完全 规划 所 有 大 数据 应 用 系统 的 建设 ， 注 定 了 应 用 系统 建设 是 一 个 渐进 
式 的 过 程 ， 每 新 建 一 个 应 用 系统 无 可 避免 地 需要 从 已 有 系统 中 获取 数据 才能 实现 有 效 集成 。 而 传统 
方式 是 每 个 新 系统 的 上 线 都 需要 所 有 系统 的 开发 商 为 其 定制 化 开发 接口 ， 大 大 地 增加 了 系统 开发 复 
杂 度 、 提 高 了 项 目 费 用 、 延 后 了 项 目 工 期 。 有 了 大 数据 管理 平台 后 ， 当 新 系统 上 线 时 不 再 需要 已 有 
系统 提供 数据 接口 ， 而 是 在 数据 平台 上 通过 参数 的 设置 简单 实现 从 已 有 系统 上 实时 获取 数据 。 


(3 ) 更 大 深度 地 挖掘 数据 的 价值 需要 大 数据 管理 平台 


大 数据 管理 平台 为 政府 和 企业 建设 集中 统一 的 大 数据 平台 ， 从 各 个 业务 系统 中 实时 获取 数据 
进行 加 工 处 理 ， 发 现 数据 中 蕴含 的 巨大 价值 。 


号 ..3 大 数据 管理 平台 的 功能 


大 数据 的 核心 是 利用 技术 ， 把 “数据 ”这 个 资源 充分 利用 起 来 ， 让 其 发 挥 其 应 有 的 作用 ， 为 
企业 的 发 展 、 政 府 的 服务 提供 价值 。 要 想 实现 上 述 大 数据 的 价值 ， 首 先 要 做 的 就 是 如 何 规划 、 整 
理 、 处 理 这 些 数据 。 大 数据 管理 平台 自然 而 然 成 为 基础 和 核心 。 

大 数据 管理 平台 是 数据 资源 传输 交换 、 存 储 管理 和 分 析 处 理 的 平台 ， 为 大 数据 应 用 提供 统一 
的 数据 层 。 它 主要 实现 数据 传输 交换 、 管 理 监控 、 共 享 开 放 、 分 析 挖 掘 等 基本 功能 ， 支 撑 分 布 式 
计算 、 流 式 数据 处 理 、 大 数据 关联 分 析 、 趋 势 分 析 、 空 间 分 析 ， 支 撑 大 数据 应 用 产品 的 研发 。 大 
数据 管理 平台 主要 实现 的 三 大 功能 分 小 节 说 明 如 下 。 


8.3.1 推进 数据 资源 全 面 整 合共 享 


提升 数据 资源 获取 能 力 。 加 强 数 据 资源 规划 ， 明 确 数据 资源 采集 目标 ， 建 立 数据 采集 目录 ， 
避免 重复 采集 ， 逐 步 实 现 “ 一 次 采集 ， 多 次 应 用 ”。 利 用 物 联网 、 移 动 互联 网 等 新 技术 ， 拓 宽 数 
据 获 取 渠 道 ， 创 新 数据 采集 方式 。 

加 强 数据 资源 整合 。 破 除数 据 孤 岛 ， 建 立信 息 资源 目录 体系 ， 实 现 系统 内 数据 资源 整合 集中 
和 动态 更 新 ， 建 设 各 类 基础 数据 库 。 通 过 政府 数据 统一 共享 交换 平台 接 入 人 口 基础 信息 库 、 法 人 
单位 资源 库 、 自 然 资源 和 空间 地 理 基 础 库 等 其 他 国家 基础 数据 资源 。 拓 展 吸 纳 外 部 合作 单位 和 互 
联网 关联 数据 ， 形 成 信息 资源 中 心 ， 实 现 数据 互联 互通 。 

推动 数据 资源 共享 服务 。 明 确 各 部 门 数据 共享 的 范围 边界 和 使 用 方式 ， 厘 清 各 部 门 数据 管理 
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及 共享 的 义务 和 权力 ， 制 定数 据 资源 共享 管理 办 法 ， 编 制 数据 资源 共享 目录 。 提 供 灵活 多 样 的 数 
据 检索 服务 ， 形 成 向 平台 直接 获取 为 主 、 部 门 间 数 据 交 换 获取 为 辅 的 数据 共享 机 制 ， 提 高 数据 共 
享 的 管理 和 服务 水 平 。 

推进 数据 开放 。 建 立 数据 开放 目录 ， 推 动 政府 向 社会 开放 部 分 数据 ， 提 高 数据 开放 的 规范 性 
和 权威 性 。 


8.3.2 ”增强 数据 管理 水 平 


按照 行业 数据 标准 规范 体系 ， 建 立 平台 级 数据 和 业务 标准 模型 ， 保 障 数据 准确 性 、 一 致 性 、 
真实 性 和 权威 性 。 建 立 统一 的 访问 机 制 ， 合 理 规范 业务 数据 的 使 用 方式 与 范围 。 

建立 集中 统一 的 信息 安全 管理 平台 ， 明 确 数据 采集 、 传 输 、 存 储 、 使 用 、 开 放 等 各 环节 的 信 
息 安 全 范围 边界 、 责 任 主体 和 使 用 权限 。 落 实 信息 安全 等 级 保护 等 国家 信息 安全 制度 。 增 强 数据 
资源 和 应 用 系统 等 的 安全 保障 能 力 。 

实施 数据 管理 制度 ， 明 确 各 部 门 数 据 的 有 效 期 和 时 效 性 ， 加 强 数据 版 本 化 管理 ， 增 强 数据 加 
密 能 力 ， 提 供 数据 多 维 归 类 功能 ， 强 化 原始 数据 的 不 可 更 改 性 ， 提 供 数 据 行为 审计 。 

提供 数据 处 理 流程 引擎 ， 为 各 类 数据 的 处 理 提供 可 配置 的 标准 处 理 流程 。 


8.3.3 ”支撑 创新 大 数据 分 析 


为 数据 资源 开发 与 应 用 提供 统一 的 访问 服务 ， 创 新 大 数据 分 析 与 应 用 ， 支 撑 精 细 化 分 析 和 实 
时 可 视 化 表达 ， 增 强 趋势 分 析 和 预警 能 力 ， 为 决策 和 管理 提供 数据 支持 ， 提 高 管理 决策 预见 性 、 
针对 性 和 时 效 性 。 

提供 自动 多 维 归 类 功能 ， 加 强 各 类 数据 的 关联 分 析 ， 包 括 与 外 部 数据 资源 (如 : 合作 单位 数 
据 、 互 联网 数据 、 购 买 数据 ) 融合 利用 和 信息 服务 ， 提 高 业务 处 理 能 力 。 利 用 跨 部 门 的 数据 资 
源 ， 支 撑 定 量化 、 可 视 化 评估 实施 成 效 。 

快速 搜集 和 处 理 涉 及 业务 风险 、 突 发 事件 、 社 会 与 论 等 海量 数据 ， 综 合 利用 各 部 门 的 数据 ， 
开展 大 数据 统计 分 析 ， 构 建 大 数据 分 析 模 型 ， 建 设 大 数据 应 用 ， 提 升 决策 等 能 力 。 


号 .4 数据 管理 平台 (DMP ) 


DMP， 全 名 为 Data-Management Platform， 即 数据 管理 平台 ， 是 利用 大 数据 技术 从 海量 杂乱 
的 数据 中 抽取 出 有 价值 信息 的 重要 基础 设施 。DMP 是 专门 针对 广告 投放 的 数据 管理 平台 ， 几 乎 
所 有 的 大 型 广告 公司 都 将 它 用 于 与 DSP (Demand-Side Platform ) 配合 来 优化 广告 投放 效果 。 

随 着 数据 时 代 的 到 来 ，DMP 开始 从 早期 广告 服务 平台 逐步 演变 成 为 企业 客户 营销 的 核心 引 
擎 。DMP 更 多 被 定义 为 能 统一 抽取 公司 各 业务 离散 的 数据 并 作出 科学 分 析 来 支撑 决策 的 技术 性 
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平台 。DMP 能 够 整合 集成 各 类 基础 业务 数据 ， 如 客户 数据 、 会 员 数据 、ERP 数据 、DEM 数 
据 、 用 户 在 网 页 和 APP 上 的 访问 数据 等 ， 并 利用 模型 算法 来 帮助 行业 客户 从 海量 数据 中 挖掘 到 
有 价值 的 商业 信息 ， 给 予 产品 推广 和 营销 工作 支持 。DMP 的 这 种 数据 采集 、 分 析 处 理 、 应 用 反 
馈 的 回路 也 是 周而复始 ， 而 且 有 机 会 使 系统 变 得 越 来 越 敏 锐 和 智慧 。 

DMP 一 定 要 在 使 用 中 才能 产生 价值 ， 那 么 除了 RTB 广告 ，DMP 主要 有 以 下 两 种 变现 途径 : 


@。 数据 报告 变现 : 这 种 模式 不 涉及 个 体 用 户 的 隐私 ， 因 此 相对 比较 成 熟 ， 比 如 通过 对 于 
人 流量 的 分 析 可 以 广泛 地 用 于 交通 流量 预测 、 旅 游 流量 预测 、 商 家 选 址 等 等 ， 可 以 为 
政府 、 商 家 提供 相关 的 咨询 服务 。 

@ ”数据 服务 变现 : 通过 数据 运算 将 企业 的 第 一 方 数据 和 数据 管理 平台 内 的 数据 融合 ， 不 
断 地 挖 据 其 中 的 价值 ， 深 度 洞察 用 户 和 寻找 潜在 客户 ， 将 企业 沉睡 数据 的 价值 发 挥 最 
大 化 。 数 据 洞察 和 基于 数据 的 分 析 服 务 ， 已 经 成 为 DMP 越 来 越 重要 的 应 用 方向 ， 而 且 
成 为 评判 DMP 优 劣 的 最 直观 应 用 。 


从 数据 的 专业 性 来 说 ，DMP 不 仅 要 包含 大 数据 ， 还 要 包括 传统 业务 数据 等 多 种 数据 载体 ， 
除了 PC 端 还 有 移动 端 ， 除 了 企业 的 第 一 方 数 据 还 要 包括 企业 外 部 的 数据 来 源 〈 如 社交 媒体 ) 等 
非 结构 化 数据 内 容 ， 掌 控 用 户 在 企业 之 外 的 数据 存在 状态 ， 识 别 哪些 数据 可 以 用 于 后 续 处 理 分 
析 。 

高 价值 数据 体现 在 两 个 方面 ， 一 个 是 数据 的 连续 性 ， 同 一 用 户 在 不 同 站 点 上 的 行为 数据 能 够 
被 识别 并 连接 在 一 起 ; 另 一 个 是 多 种 终端 的 数据 的 连续 性 ， 目 前 主要 还 是 PC 端 和 手机 端 。 对 于 
第 一 个 数据 ， 由 于 来 自 于 自身 业务 开展 过 程 中 的 数据 积累， 其 数据 质量 往往 比较 高 ， 如 果 数 据 量 
够 大 ， 数 据 维度 也 够 丰富 ， 完 全 可 以 对 外 提供 DMP 数据 服务 。 国 内 有 一 些 拥 有 庞大 数据 的 机 
构 ， 目 前 还 是 更 多 地 把 自身 的 数据 脱 敏 后 售卖 给 第 三 方 DMP 公司 。 无 论 哪 种 数据 来 源 ， 都 并 非 
直接 对 接 给 需求 方 ， 而 是 采用 统一 化 的 方式 将 各 方 数据 吸纳 整合 ， 再 进行 数据 处 理 和 融合 ， 做 标 
准 化 、 结 构 化 的 细 分 。 这 样 加 工 后 再 推 向 营销 和 分 析 环境 中 的 数据 才能 更 完整 ， 系 统 性 也 更 强 ， 
同时 也 不 再 是 原始 数据 的 形态 。 

无 论 是 对 外 提供 哪 种 DMP 数据 服务 ， 其 算法 和 模型 都 是 建立 在 所 拥有 的 数据 之 上 ， 数 据 基 
础 越 是 丰富 、 建 模 能 力 越 强 、 对 行业 理解 越 深 入 ， 就 越 能 准确 地 捕捉 用 户 在 互联 网 上 的 行为 ， 建 
立 更 完善 的 标签 分 类 体系 ， 为 用 户 更 好 地 画像 ， 建 立 适 应 行业 需要 的 业务 应 用 模型 ， 大 数据 应 用 
才能 扎实 地 展开 。 好 的 DMP 产品 能 解决 企业 的 实际 业务 问题 ， 优 秀 的 数据 管理 平台 不 仅仅 只 是 
提供 一 个 技术 平台 ， 更 重要 的 是 需要 具备 业务 理解 能 力 和 分 析 建 模 能 力 ， 只 有 这 样 才能 真正 用 好 
这 些 数 据 。 

与 上 节 的 大 数据 管理 平台 的 功能 要 求 相 比 ，DMP 只 是 完成 了 大 数据 管理 平台 的 一 部 分 功 
能 。DMP 还 不 能 算是 大 数据 管理 平台 ， 它 只 是 一 个 为 企业 营销 服务 的 数据 管理 软件 。 而 大 数据 
管理 平台 给 企业 和 政府 提供 了 一 个 只 关心 数据 的 数据 层 。 通 过 大 数据 管理 平台 ， 帮 助 企业 整合 它 
们 所 有 的 数据 ， 并 在 一 个 平台 上 展现 和 汇聚 所 有 数据 。 从 前 在 IT 系统 上 不 存在 数据 层 ， 一 个 企 
业 的 信息 中 心 或 CIO 想 要 看 自己 的 企业 的 所 有 数据 ， 基 本 没有 地 方 看 〈 银 行业 通过 数据 仓库 来 
看 ， 有 T+1 的 延 时 )。 企 业 的 统一 数据 平台 给 企业 带 来 了 很 多 好 处 ， 好 处 之 一 就 是 未 来 的 所 有 新 
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应 用 就 可 以 真正 基于 一 个 平台 来 开发 了 。 虽 然 Hadoop 本 身 提供 了 大 数据 管理 平台 的 基础 软件 ， 
但 是 我 们 要 避免 把 Hadoop 用 成 是 “一 个 ”系统 软件 ， 而 忽视 统一 数据 平台 的 重要 性 。 以 应 用 为 
导向 的 思路 ， 很 容易 让 客户 采用 “Hadoop+ 应 用 ”的 架构 ， 对 于 一 套套 应 用 系统 ， 形 成 了 多 个 
“Hadoop+ 应 用 ”的 烟 锻 式 系统 ， 就 像 当年 一 个 企业 部 署 多 个 不 同 Oracle 应 用 的 情形 一 样 。 


8.5 EasyDoop 案例 分 析 


我 们 以 业界 知名 的 大 数据 管理 平台 EasyDoop 为 例 ， 来 阐述 大 数据 管理 平台 的 各 个 组 件 和 其 
功能 架构 。 从 技术 上 讲 ，EasyDoop 大 数据 管理 平台 以 Hadoop 为 基础 ， 具 备 了 大 数据 管理 与 处 
理 分 析 的 能 力 ， 提 供 了 解决 大 数据 应 用 需求 的 管理 工具 和 集成 、 开 发 、 展 现 组 件 ， 使 企业 可 实现 
大 规模 结构 化 、 非 结构 化 数据 的 集中 、 一 体 化 的 分 析 处 理 需 求 。EasyDoop 基于 Hadoop、Hive、 
Storm、Spark、Flume、Sqoop、HBase、Phoneix、Kafka 等 组 件 进行 了 商业 化 提升 ， 涵 盖 大 规模 
非 结构 化 数据 集成 、 存 储 、 管 理 和 分 析 计算 。EasyDoop 集成 YARN， 支 持 多 种 分 布 式 计算 框架 

(MapReduce、Spark 等 )， 可 轻松 管理 PB 级 数据 。EasyDoop 提供 了 基于 流 式 处 理 的 实时 分 

析 ， 数 据 可 在 内 存 中 处 理 ， 而 不 经 过 磁盘 。EasyDoop 采用 DAG 计算 模型 ， 可 以 根据 业务 需要 
增 减 bolt 组 合计 算 流程 。EasyDoop 支持 大 吞吐 量 ， 单 集群 的 每 个 bolt 可 处 理 10Gb/s。EasyDoop 
基于 Hive 提供 了 非 结构 化 数据 的 即时 〈ad-hoc) 分 析 ， 包 括 查询 和 聚合 等 ， 支 持 文本 、 
SequenceFile、RCFile 等 文件 格式 ， 支 持 GZIP 等 压缩 算法 。 

大 数据 系统 首先 要 给 数据 建立 模型 ， 然 后 从 多 种 数据 源 获 取 数据 ， 数 据 的 预 处 理 〈 清 洗 、 验 
证 等 )， 数 据 存 储 ， 数 据 处 理 和 分 析 ， 最 后 呈现 和 可 视 化 数据 分 析 的 结果 。 如 图 8-2 所 示 ， 
EasyDoop 大 数据 管理 平台 分 为 大 数据 建 模 平台 、 大 数据 交换 和 共享 平台 、 大 数据 云 平台 和 大 数 
据 服务 平台 ， 从 而 为 用 户 构建 了 全 域 的 统一 数据 资源 层 。 


行业 应 用 


8-2 ”EasyDoop 产品 结构 
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在 大 数据 建 模 平台 上 ， 可 快速 建立 各 类 数据 模型 和 处 理 流程 模型 ， 配 置 各 类 数据 的 安全 和 归 
档 规则 。 在 大 数据 交换 和 共享 平台 上 ， 可 设置 异 构 数据 源 的 采集 和 映射 规则 ， 自 动 从 庞大 的 内 外 
数据 源 上 采集 数据 到 大 数据 云 平台 。 大 数据 云 平台 是 存储 和 管理 大 数据 的 平台 ， 可 横向 扩展 到 数 
万 台 服 务 器 。 大 数据 服务 平台 提供 数据 服务 功能 和 大 数据 分 析 工 具 。EasyDoop 提供 了 API 和 
Web 服务 用 于 开发 大 数据 创新 应 用 。 


8.5.1 大 数据 建 模 平 台 


建 模 平台 包含 了 针对 数据 模型 、 业 务 流程 模型 、 安 全 和 访问 控制 模型 、 存 储 模型 的 创建 、 更 
新 和 删除 等 功能 。 


1. 数据 模型 建 模 


大 数据 系统 需要 从 不 同 种 类 不 同 来 源 的 数据 进行 采集 ， 这 些 不 同 数据 源 获取 的 数据 具有 不 同 
的 格式 ， 使 用 不 同 的 协议 。 建 模 平台 提供 了 统一 的 数据 模型 管理 。 统 一 的 、 标 准 的 数据 模型 确保 
了 数据 是 准确 、 可 靠 、 值 得 信赖 的 ， 来 龙 去 脉 清楚 ， 并 且 具 有 一 致 性 ， 才 能 帮助 分 析 决 策 。 

EasyDoop 上 的 数据 模型 包含 了 非 结 构 化 数据 和 结构 化 数据 ， 按 照 业 务 对 象 模型 来 建立 数据 
模型 。 数 据 的 版 本 控制 、 归 档 设置 、 多 维 自动 归 类 、 安 全 访问 设置 等 都 是 以 数据 模型 为 中 心 开展 
起 来 的 。 系 统 支持 数据 属性 的 自 定义 校 验 规则 ， 如 数据 的 唯一 性 、 关 联 性 、 完 整 性 等 。 

数据 模型 可 以 按照 业务 类 别 归 类 到 不 同 的 系统 空间 上 ， 也 可 以 按照 数据 采集 、 数 据 存储 、 数 
据 应 用 的 逻辑 顺序 ， 归 类 到 虚拟 库 下 ， 比 如 : 采集 库 、 基 础 库 、 统 计 分 析 库 。 采 集 库 是 平台 数据 
的 入 口 ， 数 据 由 大 数据 交换 共享 平台 完成 采集 ， 首 先进 入 到 采集 库 中 ， 经 过 清洗 和 校 验 后 ， 作 为 
基础 数据 进入 到 基础 库 中 。 基 础 库 用 于 数据 资源 的 集中 存储 和 统一 管理 。 统 计 分 析 库存 放 统计 分 
析 的 结果 数据 ， 便 于 结果 数据 的 可 视 化 呈现 。 

EasyDoop 支持 数据 模型 的 动态 调整 。 数 据 模 型 不 是 一 成 不 变 的 ， 可 以 根据 需求 的 变更 而 动 
态 调 整 。 在 整个 数据 处 理 过 程 中 ， 花 在 特征 提取 和 选择 上 的 时 间 比 选择 和 实现 算法 的 时 间 还 要 
多 。 比 如 : 在 欺诈 交易 检测 模型 中 ， 我 们 需要 从 许多 可 能 的 特征 中 进行 选择 ， 然 后 将 特征 转换 成 
适用 于 机 器 学 习 算 法 的 向 量 。 


2. 业务 流程 建 模 

业务 流程 是 数据 处 理 的 一 系列 步骤 。 这 包括 自动 化 处 理 流程 与 半自动 化 处 理 流 程 。 
EasyDoop 提供 业务 处 理 流程 引擎 ， 帮 助 政府 和 企业 创建 和 管理 自身 的 业务 处 理 流程 。EasyDoop 
使 得 数据 模型 、 业 务 处 理 流程 和 业务 数据 分 离 ， 从 而 提供 了 最 大 化 的 灵活 性 和 便利 性 。 

3. 存储 建 模 


数据 本 身分 为 冷 数据 和 热 数据 。 存 储 介质 有 快 有 慢 ， 有 贵 有 便宜 的 。 虽 然 大 数据 平台 统一 存 
储 了 各 部 门 的 数据 ， 从 数据 安全 性 、 成 本 效益 和 存储 性 能 的 角度 考虑 ， 有 时 又 需要 在 存储 上 分 开 
存放 。EasyDoop 的 存储 建 模 就 是 为 政府 和 企业 提供 虚拟 设备 的 管理 功能 ， 为 不 同 的 数据 模型 提 
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供 不 同 的 存储 。EasyDoop 的 存储 模型 可 以 混合 Hadoop 分 布 式 文件 系统 和 传统 文件 系统 ， 可 以 
横向 扩展 多 个 存储 介质 ， 可 以 在 平台 级 别 上 控制 虚拟 存储 容器 的 读 写 设置 。 

4. 安全 建 模 

所 有 数据 都 在 同一 个 平台 之 后 ， 数 据 的 安全 性 显得 更 加 重要 。 数 据 本 身 是 一 种 资产 ， 如 果 数 
据 的 敏感 性 和 安全 性 没有 保证 ， 那 么 政府 和 企业 不 敢 采用 。 所 以 ， 建 模 过程 中 也 包含 了 对 数据 安 
全 性 的 设置 ， 这 包括 了 数据 的 访问 控制 列表 、 加 密 和 解密 、 统 一 的 用 户 和 权限 管理 等 功能 。 不 同 
部 门 的 用 户 在 统一 的 平台 上 登录 、 验 证 、 访 问 授权 数据 。 


8.5.2 ”大 数据 交换 和 共享 平台 


大 数据 交换 和 共享 平台 首先 解决 平台 数据 源 的 问题 。 根 据 数据 采集 原则 ， 支 持 多 种 数据 采集 
方式 ， 获 取 不 同 格式 的 数据 ， 集 中 入 库 到 平台 上 ， 便 于 数据 的 统一 管理 和 访问 ， 便 于 开展 共享 数 
据 服务 。 其 次 是 打破 业务 系统 条 块 分 割 和 信息 孤岛 ， 解 决 各 业务 系统 之 间 数 据 交互 的 问题 。 大 数 
据 交 换 和 共享 平台 的 特点 为 : 


多 样 性 : 支持 从 各 类 主流 数据 库 ( Oracle、DB2、SQL Server、MySQL 等 ) 、 端 口 、 
设备 、 邮 件 系统 、 外 部 网 站 、URL、Web 服务 、 私 有 应 用 系统 、 文 件 系统 上 采集 元 数 
据 和 音频 、 视 频 、PDF、 办 公文 件 等 非 结 构 化 资源 ， 并 保持 同步 更 新 。 

高 性 能 : 每 秒 能 采集 几 十 万 条 数据 ， 能 横向 扩展 以 支持 更 多 更 快 的 数据 采集 。 

实时 性 : 保证 较 低 的 延迟 时 间 。 在 环保 行业 上 ， EasyDoop 的 环保 监测 数据 的 采集 达 
到 了 秒 级 ， 甚 至 是 毫秒 级 别 。 

易 用 性 : 用 户 在 无 须 了 解 Hadoop 技术 的 情况 下 ， 可 快速 地 进行 开发 和 部 署 ; 管理 界面 
简单 易 懂 ， 用 户 通 过 简单 的 几 步 配置 即 可 完成 数据 的 采集 。 

可 扩展 性 : EasyDoop 提供 了 数据 源 连 接 器 的 对 外 接口 ， 用 户 基于 这 个 接口 既 可 开发 自 
己 企业 应 用 系统 的 数据 连接 器 ， 也 能 够 访问 企业 外 部 的 数据 源 。 

可 视 化 : 支持 采集 作业 与 任务 执行 的 可 视 化 与 分 析 ， 能 够 更 好 地 查看 进度 和 性 能 ， 保 
证 数据 采集 始终 处 于 有 序 管理 的 状态 。 

智能 化 : 预先 配置 好 关键 的 运行 指标 ， 可 以 直接 查看 采集 任务 是 否 健康 执行 。 


大 数据 交换 平台 包括 了 以 下 的 数据 交换 、 采 集 管理 和 数据 抓 取 等 模块 。 


1. 数据 交换 

数据 交换 模块 是 指 通过 双方 约定 的 接口 进行 数据 的 获取 和 发 布 。 平 台 支 持 的 数据 交换 接口 包 
括 : 数据 库 接口 、 文 件 接口 、API 接口 、 邮 件 服务 器 接口 、 设 备 接口 等 。 

数据 库 接 口 有 三 种 形式 : 数据 库 文件 、 数 据 库 同步 和 数据 库 接口 。 对 于 数据 库 文件 接口 ， 数 
据 厂 家 定期 将 全 量 或 增 量 的 数据 库 文件 发 布 到 指定 的 服务 器 〈 厂 家 FTP 服务 器 或 平台 的 采集 前 
置 机 ) 中， 采集 程序 获取 文件 ， 导 入 到 数据 库 中 ， 对 于 数据 库 同步 接口 ， 平 台 对 数据 厂家 开放 平 
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台 访 问 权限 ， 由 数据 厂家 将 数据 定期 同步 至 平台 中 ; 对 于 数据 库 接口 ， 数 据 厂家 对 平台 开放 数据 
库 访 问 权 限 ， 由 平台 主动 获取 厂家 数据 库 中 的 数据 。 

对 于 文件 接口 ， 通 过 数据 厂家 提供 的 文件 接口 采集 数据 文件 ， 对 数据 文件 进行 处 理 后 存储 到 
平台 中 。 文 件 接口 支持 FTP 接口 、 文 件 同步 以 及 其 他 扩展 接口 。 

对 于 API 接口 ， 通 过 数据 厂家 提供 的 API 接口 进行 数据 交换 ， 包 括 HTML 页 面 接口 、Web 
服务 接口 、Rest 接口 等 。 

对 于 设备 接口 ， 数 据 厂 家 将 数据 发 送 到 平台 指定 的 端口 上 ， 平 台 获 取 后 存储 在 平台 上 。 或 
者 ， 平 台 发 送 数据 到 数据 厂家 指定 的 端口 上 。 


2. 采集 管理 


采集 管理 模块 是 对 数据 采集 规则 、 数 据 源 连 接 器 、 采 集 任 务 进行 管理 和 监控 。 按 照 采集 规 
则 ， 对 于 采集 的 数据 进行 清洗 转换 ， 并 存储 到 平台 上 。 模 块 包括 采集 规则 管理 、 连 接 器 管理 、 采 
集 服务 管 理 和 服务 控制 台 四 部 分 功能 。 

采集 规则 管理 功能 主要 实现 采集 任务 过 程 中 相关 参数 的 配置 工作 ， 如 采集 任务 的 类 型 、 采 集 
周期 、 采 集 时 间 频 度 、 数 据 源 位 置信 息 、 校 验 规则 、 数 据 的 映射 规则 等 参数 ， 在 采集 过 程 中 会 按 
照 事先 配置 好 的 这 些 参数 要 求 完成 数据 的 采集 工作 。 

-个 数据 源 有 一 个 连接 器 。 按 照 数据 源 的 种 类 (如 : Oracle 数据 库 、 文 件 系统 、 监 听 端 口 
等 )， 连 接 器 管理 为 每 个 数据 源 定义 一 个 连接 器 。 每 个 连接 器 实现 与 一 种 数据 源 的 连接 、 数 据 采 
集 、 数 据 写 入 、 数 据 清 洗 与 转化 等 通用 功能 。 

采集 服务 是 采集 规则 、 连 接 器 和 处 理 流程 的 集合 ， 采 集 服务 管理 就 是 创建 不 同 的 采集 服务 。 
比如 : 5 个 都 在 使 用 Oracle 数据 库 的 业务 系统 ， 则 连接 器 只 有 一 个 〈Oracle 连接 器 )， 但 是 采集 
服务 和 采集 规则 有 5 个 ， 分 别 定义 了 从 5 个 业务 系统 上 采集 不 同 的 数据 到 平台 上 。 采 集 服务 管理 
包括 任务 的 新 增 、 修 改 、 删 除 、 查 询 以 及 停 用 等 功能 。 

采集 服务 控制 台 主要 实现 检测 所 有 采集 任务 从 开始 到 结束 的 运行 情况 ， 通 过 此 功能 用 户 可 以 
方便 查看 采集 任务 的 状态 情况 ， 任 务 的 状态 可 通过 警示 灯 的 颜色 区 分 ， 成 功 状态 为 绿色 ， 失 败 状 
态 为 红色 ， 对 于 采集 失败 的 任务 ， 平 台 会 及 时 通过 邮件 、 短 信 、 系 统 弹出 框 等 方式 通知 和 提醒 管 
理 员 。 通 过 失败 信息 ， 管 理 员 就 能 了 解 任 务 失败 的 时 间 、 失 败 的 原因 、 失 败 的 任务 名 称 。 并 且 对 
于 失败 的 任务 ， 管 理 员 可 以 重启 这 个 采集 任务 。 


3. 数据 抓 取 


数据 抓 取 功能 是 指 通过 网 络 爬 虫 对 互联 网 页 面 进行 抓 取 ， 并 对 具备 固定 网 页 格式 的 页 面 从 中 
抽取 所 需要 的 结构 化 数据 。 数 据 抓 取 功能 支持 与 数据 源 网 站 的 比 对 功能 ， 当 数据 源 网 站 已 发 布 的 
数据 变更 时 ， 它 可 以 对 已 抓 取 数 据 进行 更 新 的 功能 。 


8.5.3 ”大 数据 云 平台 
经 各 种 方式 获取 的 数据 ， 按 照 数据 模型 集中 存储 到 大 数据 云 平 台 上 ， 构 建 政 府 和 企业 的 数据 


185 


大 数据 技术 入 门 


层 。 大 数据 云 平台 是 建立 在 HDFS、HBase、 关 系 型 数据 库 〈 如 : Oracle) 和 传统 文件 系统 之 
上 ， 提 供 高 可 靠 性 、 高 性 能 、 行 列 存 储 、 可 伸缩 、 实 时 读 写 的 大 数据 存储 和 管理 平台 。 一 个 表 可 
以 有 上 亿 行 ， 上 万 列 ， 并 且 基 于 Hadoop 可 提供 面向 列 的 存储 、 权 限 控制 和 独立 检索 。 依 靠 
Hadoop 的 横向 扩展 功能 ， 大 数据 云 平台 通过 不 断 增 加 廉价 的 商用 服务 器 来 增加 计算 和 存储 能 
力 。 

大 数据 云 平 台 支 持 PB 级 的 数据 规模 ， 具 有 以 下 特点 : 


@ ”高 扩展 性 : 可 以 方便 快速 地 扩展 到 数 以 千 计 的 节点 (服务器) 中。 

@ 高 效 性 : 能 够 在 节点 之 间 动 态 地 移动 数据 ， 并 保证 各 个 节点 的 动态 平衡 ， 因 此 处 理 速 
度 非常 快 。 

@ ”高 容错 性 : 能 够 自动 保存 数据 的 多 个 副本 。 

@。” 低 成 本 : 与 基于 IBM、HP 的 大 数据 系统 相 比 ， 基 于 EasyDoop 的 实施 成 本 大 大 降低 。 


8.5.4 大 数据 服务 平台 


大 数据 服务 平台 提取 平台 中 的 结构 化 和 非 结 构 化 数据 ， 基 于 数据 模型 封装 数据 服务 ， 发 布 数 
据 服务 接口 (API)， 以 统一 接口 服务 方式 实现 应 用 系统 对 大 数据 平台 的 数据 访问 和 处 理 。 规 范 
的 API 接口 实现 了 应 用 层 与 数据 层 的 松 耦 合 ， 确 保 当 底层 数据 库 或 数据 源 类 型 发 生变 化 时 ， 应 
用 层 代码 无 须 进行 改动 。 

如 图 8-3 所 示 ， 除 了 API， 大 数据 服务 平台 还 提供 了 通用 型 数据 服务 系统 、 数 据 目录 管理 与 
服务 系统 、 数 据 分 析 系 统 。 


新 应 用 系统 


8-3 ”大 数据 服务 平台 架构 
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1. 数据 服务 系统 
数据 服务 系统 提供 网 页 版 通用 数据 管理 界面 ， 集 中 管理 平台 上 的 所 有 结构 化 和 非 结 构 化 数 


实现 所 有 数据 的 聚合 展示 和 查询 ， 包 括 非 结构 化 数据 的 统一 展示 。 
提供 数据 各 个 版 本 的 查询 功能 。 

实现 数据 的 增删 改 功能 。 

按照 业务 处 理 流程 实现 数据 的 统一 流转 和 处 理 ， 业 务 状态 查询 。 
展示 数据 的 生命 周期 。 

实现 数据 的 多 维 归 类 。 

实现 数据 的 只 读 、 锁 定 等 设置 。 


2. 数据 目录 管理 与 服务 系统 


数据 目录 服务 系统 采用 一 种 非 落地 的 信息 共享 模式 ， 是 对 数据 交换 共享 模式 的 补充 。 在 目录 
式 共享 中 ， 各 应 用 部 门 〈 单 位 》 对 各 自 共享 的 资源 有 完整 的 控制 权 ， 可 有 效 地 解决 交换 模式 中 各 
应 用 部 门 〈 单 位 ) 不 愿意 批量 提供 数据 的 问题 。 

数据 目录 管理 系统 是 以 目录 方式 实现 数据 共享 ， 是 政府 实现 信息 资源 共享 的 有 效 手 段 ， 使 用 
目录 体系 可 以 以 更 加 灵活 的 方式 实现 更 多 部 门 、 更 多 应 用 、 更 多 资源 的 接 入 与 共享 。 数 据 目录 管 


理 系统 的 架构 如 图 8-4 所 示 。 
= 
一 


图 84 数据 目录 管理 系统 


数据 目录 管理 系统 的 特征 是 : 


@ ”严格 的 资源 权限 管理 ， 不 同 授权 等 级 的 人 员 看 到 不 同 的 资源 。 
@ ”提供 数据 目录 展示 门户 系统 ， 可 按照 应 用 部 门 和 主题 查询 。 
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@ ”支持 多 级 中 心目 录 管 理 与 访问 ， 支 持 集中 式 看 储 和 分 布 式 存储 两 种 方式 ， 可 实现 横向 
管理 与 纵向 管理 。 

@ ”根据 目录 内 容 提供 标准 接口 ， 提 供 资源 的 二 次 开发 支持 ， 为 其 他 应 用 提供 接口 查询 目 
录 对 应 资源 内 容 ， 供 给 其 他 应 用 使 用 。 


3. 数据 分 析 系 统 


数据 分 析 系 统 是 以 案例 〈Case) 为 中 心 展 开 的 。 案 例 就 是 相关 数据 集合 的 对 象 ， 是 某 类 待 分 
析 目 标 在 数据 层面 上 的 多 维度 体现 。 数 据 分 析 系 统 提供 了 管理 界面 ， 用 于 创建 一 个 或 多 个 案例 
(类 似 一 个 文件 夹 )， 指 定案 例 下 所 关联 的 不 同 的 查询 条 件 〈 每 个 查询 条 件 有 一 个 名 字 ， 可 以 认 
为 是 一 个 维度 ， 功 能 上 类 似 一 个 子 文件 夹 )。 可 视 化 界面 可 以 呈现 一 个 案例 下 不 同 维度 的 数据 数 
量 的 变迁 ， 并 以 案例 为 基本 对 象 进入 业务 处 理 流程 ， 这 个 处 理 流程 可 以 包含 特定 行业 相关 的 数据 
分 析 。 


8.5.5 “EasyDoop 平台 技术 原理 分 析 


图 8-5 显示 了 EasyDoop 数据 流 的 过 程 。EasyDoop 在 Hadoop 集群 上 存储 结构 化 数据 和 非 结 
构 化 数据 ， 异 构 数 据 源 通 过 交换 和 共享 平台 把 数据 汇集 到 Hadoop 集群 上 。EasyDoop 提供 了 数 
据 建 模 工具 ， 通 过 EasyDoop API 按照 数据 模型 将 结构 化 和 非 结构 化 数据 整合 在 一 个 对 象 中 ， 由 
行业 大 数据 应 用 系统 进行 处 理 和 分 析 。EasyDoop 还 提供 了 数据 安全 性 机 制 。 


异 构 数据 源 数 
安 0 sapere 据 
全 建 
0 
模 
ee 有 <) 到 go3 | 
pal 非 结 构 化 数据 


图 8-5 EasyDoop 数据 流 
1. 数据 模型 


对 于 企业 或 政府 部 门 而 言 ， 现 有 的 应 用 系统 就 像 一 个 个 互 不 交叉 的 烟 肉 。 但 是 ， 每 一 个 系统 
产生 的 数据 不 应 该 是 割裂 的 。 在 大 数据 背景 下 我 们 不 能 产生 更 多 的 烟 奥 出 来 ， 这 就 需要 一 个 逻辑 
数据 结构 把 不 同 的 数据 联系 起 来 。 另 外 ， 我 们 原来 的 数据 更 多 的 是 侧重 在 定量 的 数据 。 现 在 同一 
份 数据 ， 可 能 既 有 定量 又 有 定性 ， 所 以 我 们 通过 一 个 逻辑 数据 结构 添加 新 的 属性 。 还 有 一 点 ， 数 
据 是 有 版 本 化 的 ， 有 生命 周期 和 有 效 期 ， 有 些 数据 3 年 有 效 ， 有 些 7 年 有 效 ， 这 些 可 通过 数据 归 
档 自 动 完 成 。 定 义 逻 辑 结构 就 是 一 个 数据 建 模 的 过 程 。 只 有 建 模 之 后 ， 才 能 从 不 同 的 烟 负 上 采集 


188 


第 8 章 大 数据 管理 平台 


不 同 数据 到 统一 的 大 数据 平台 上 ， 才 能 设置 数据 的 归档 设置 等 属性 。 

EasyDoop 将 这 些 规模 日 益 庞大 的 源 数据 汇聚 至 Hadoop 时 ， 使 用 了 全 平台 统一 的 逻辑 数据 
结构 (EasyDoop 数据 模型 )， 基 于 统一 的 数据 模型 来 规划 不 同类 型 数据 的 访问 控制 列表 、 自 动 业 
务 处 理 流程 、 是 否 在 平台 上 加 密 等 一 系列 规则 。 如 图 8-6 所 示 ，EasyDoop 数据 查询 和 处 理 API 
基于 统一 数据 结构 来 操纵 Hadoop 上 的 数据 。 


大 数据 分 析 应 用 系统 
逻辑 一 数据 结构 


EasyDoop API 


和 ear mm 


| | 卜 ) | 中 豆 中 | 
结构 化 数据 非 结 构 化 数据 
图 8-6 ”逻辑 数据 结构 


EasyDoop 的 建 模 平台 具有 以 下 特征 ; 


@ 建 模 平 台 支持 混合 环境 ， 能 够 同时 支持 Hadoop (HDFS 和 HBase) 、 关 系 型 数据 库 
(IBM DB2、Orale 和 SQL Server ) 和 传统 文件 系统 来 存储 和 读 取 数据 ; 比如 : 用 户 可 
选择 将 结构 化 数据 存放 在 Oracle 上 ， 同 时 将 非 结构 化 数据 存放 在 HDFS 上 。 这 为 用 户 
在 物理 数据 的 底层 结构 选择 上 提供 了 最 强 的 灵活 性 。 

@ ”提供 统一 的 数据 模型 ， 将 非 结构 化 数据 (文本 、 语 音 、 流 数据 等 ) 与 结构 化 数据 (元 
数据 ) 汇聚 成 统一 的 信息 逻辑 对 象 、 从 而 方便 对 结构 化 和 非 结 构 化 数据 加 以 一 致 性 处 
理 ， 并 统一 管理 元 数据 ， 提 供 统 一 标准 化 字段 。 

@ 提供 统一 的 业务 流程 模型 。 将 数据 分 析 与 业务 流程 加 以 绑 定 ， 从 而 允许 二 者 以 无 须 人 
为 干预 的 自动 化 方式 实现 大 数据 处 理 。 

@ 。 建 模 平台 支持 对 不 同 数据 模型 设置 不 同 的 安全 访问 列表 、 加 密 方式 、 自 动 业 务 处 理 流 
程 、 归 档 时 间 和 归档 操作 、 版 本 化 处 理 等 。 

@ 。 建 模 平 台 支 持 自动 链接 设置 ， 从 而 为 一 个 数据 自动 设置 多 维 参数 。 

@ 。 建 模 平 台 的 行业 数据 模型 符合 国家 标准 ， 支 持 核心 元 数据 的 动态 扩展 。 

@@ ”数据 模型 支持 Spark DataFrame。 


2. 大 数据 交换 和 共享 


除了 政府 和 企业 自身 的 众多 IT 系统 上 的 数据 需要 采集 之 外 ， 移 动 设备 以 及 未 来 更 多 的 智能 
穿戴 设备 上 的 数据 也 需要 采集 。 物 联网 设备 ， 如 环保 的 监测 设备 ， 也 都 是 数据 的 来 源 。 这 使 得 信 
息 的 来 源 变 得 无 时 无 地 不 在 发 生 的 ， 并 且 它 是 跨 平 台 的 ， 涉 及 多 种 设备 和 多 种 系统 。 这 种 数据 源 
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的 多 样 性 ， 增 加 了 数据 采集 的 难度 。 

Gartner 认为 ， 透 过 整合 并 综合 分 析 各 式 各 样 的 数据 ， 企 业 能 够 取得 最 独特 的 商业 洞 见 ， 并 
达成 流程 与 决策 的 极 佳 化 。 尽 管 大 多 数 大 数据 的 运用 聚焦 于 资料 取得 的 多 寡 和 速度 ，Gartner 调 
查 显 示 ， 最 终 的 决胜 点 取决 于 能 否 扩大 数据 源 。 

如 图 8-7 所 示 ，EasyDoop 的 大 数据 交换 和 共享 平台 就 是 支持 爆发 式 增长 的 可 用 数据 源 ， 其 
中 包括 对 社交 媒体 数据 的 采集 能 力 。EasyDoop 把 数据 采集 抽象 为 如 下 的 步 又， 并 在 数据 交换 和 
共享 平台 上 实现 ， 


ORACLE 数 

IBM DB2 UDB 据 

SQL Server 

MysQL he 区 大 数据 

-一 一 一 一 一 es ~、、 交换 和 共享 平台 Es 

| 物 联 网 设备 | | 人 HBase 

本 地 文件 系统 | 一 a ~ Hive | 
———"— I p24 传统 数据 库 

邮件 系统 站 AZ 采集 服务 管理 传统 文件 系统 
社交 媒体 wm 理 一 
第 三 方 应 用 插 服务 控制 台 

IBM 大 型 机 LA 局 芭 NO 
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(1) 定义 采集 规则 ， 包 括 数据 源 和 平台 之 间 的 数据 映射 ， 数 据 源 的 位 置信 息 等 。 

(2) 定义 数据 源 连 接 器 ， 这 包括 常见 的 文件 系统 连接 器 、 数 据 库 连 接 器 、 邮 件 系统 连接 
器 、 设 备 监 听 器 、Web 服务 采集 器 。 还 包括 了 只 能 经 由 第 三 方 系统 (私有 系统 ) API 加 以 访问 的 

(3) 定义 采集 服务 。 采 集 服务 是 一 个 采集 规则 、 源 数据 连接 器 和 采集 相关 配置 信息 的 集合 
体 。 与 业务 流程 相 结合 ， 采 集 服务 还 可 以 包括 保证 数据 质量 的 数据 比 对 、 清 洗 、 转 换 、 整 合 、 版 
本 化 和 异常 处 理 等 相关 操作 。 

(4) 采集 管理 控制 台 就 是 启动 、 停 止 和 监控 所 有 采集 服务 的 仪表 盘 。 


数据 交换 和 共享 平台 是 一 个 分 布 式 、 高 可 靠 性 、 高 可 用 性 的 数据 采集 平台 ， 是 大 数据 的 基础 
支撑 平台 ， 在 Hadoop 层面 集成 了 如 下 组 件 : 


@ 基于 Flume 实现 了 文件 系统 和 端口 等 的 数据 采集 。 

基于 Sqoop 实现 了 数据 库 数 据 采 集 。 

基于 Kafka 提供 了 一 个 高 吞吐 和 支持 缓存 的 消息 队列 。 

基于 Storm 实现 了 数据 流 的 处 理 ( 偏重 不 同 的 业务 处 理 需求 ) 。 
基于 Spark 实现 了 流 式 数 据 的 采集 。 
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3. 大 数据 服务 和 分 析 


大 数据 服务 平台 提供 统一 的 接口 和 逻辑 数据 结构 来 访问 和 操控 平台 上 所 有 数据 ， 为 数据 的 离 
线 /在 线 分 析 和 挖掘 提供 基于 Hive 和 Spark 的 服务 接口 。 大 数据 服务 平台 提供 了 所 有 数据 的 编目 
列表 和 统一 的 数据 操纵 界面 ， 并 提供 对 数据 的 申请 、 审 批 和 接口 开放 等 数据 服务 功能 。 大 数据 服 
务 平台 包含 了 目录 管理 与 服务 系统 、 数 据 服务 系统 和 数据 分 析 系统 。 

大 数据 服务 平台 集成 了 Hadoop 的 如 下 组 件 : 


@ 基于 Phoenix 提供 了 针对 HBase 的 SQL 操作 。 
@ 基于 HDFS API 提供 了 针对 HDFS 的 操纵 。 
@ 基于 Hive 和 Spark 提供 了 数据 统计 分 析 的 SQL 接口 。 
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< Spark 技 术 > 


Apache Spark 是 一 个 新 兴 的 大 数据 处 理 通用 引擎 ， 提 供 了 分 布 式 的 内 存 抽象 。Spark 最 大 的 
特点 就 是 快 (Lightning-Fast)， 可 比 Hadoop MapReduce 的 处 理 速 度 快 100 倍 。 此 外 ，Spark 提 
供 了 简单 易 用 的 API， 几 行 代码 就 能 实现 WordCount。 本 章 介绍 Spark 的 框架 ，Spark Shell 、 
RDD、Spark SQL、Spark Streaming 等 的 基本 使 用 。 


Spark 框架 


Spark 作为 新 一 代 大 数据 快速 处 理 平台 ， 集 成 了 大 数据 相关 的 各 种 能 力 。Hadoop 的 中 间 数 据 
需要 存储 在 硬盘 上 ， 这 产生 了 较 高 的 延迟 。 而 Spark 基于 内 存 计 算 ， 解 决 了 这 个 延迟 的 速度 问 
题 。Spark 本 身 可 以 直接 读 写 Hadoop 上 任何 格式 数据 ， 这 使 得 批 处 理 更 加 快速 。 

图 9-1 是 以 Spark 为 核心 的 大 数据 处 理 框架 。 最 底层 为 大 数据 存储 系统 ， 如 : HDFS、HBase 
等 。 在 存储 系统 上 面 是 Spark 集群 模式 (也 可 以 认为 是 资源 管理 层 )， 这 包括 Spark 自 带 的 独立 
部 署 模式 、YARN 和 Mesos 集群 资源 管理 模式 ， 也 可 以 是 Amazon EC2。Spark 内 核 之 上 是 为 应 
用 提供 各 类 服务 的 组 件 。Spark 内 核 API 支持 Java、Python、Scala 等 编程 语言 。Spark Streaming 
提供 高 可 靠 性 、 高 吞吐 量 的 实时 流 式 处 理 服务 ， 能 够 满足 实时 系统 要 求 , MLib 提供 机 器 学 习 服 
务 ，Spark SQL 提供 了 性 能 比 Hive 快 了 很 多 倍 的 SQL 查询 服务 ，GraphX 提供 图 计算 服务 。 


Spark Streaming Spark SQL GraphX 
Spark 内 核 


IARN 


图 9-1 Spark 框架 


从 上 图 看 出 ，Spark 有 效 集成 了 Hadoop 组 件 ， 可 以 基于 Hadoop YARN 作为 资源 管理 框架 ， 
并 从 HDFS 和 HBase 数据 源 上 读 取 数 据 。YARN 是 Spark 目前 主要 使 用 的 资源 管理 器 。Hadoop 
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能 做 的 ，Spark 基本 都 能 做 ， 而 且 做 的 比 Hadoop 好 。Spark 依然 是 Hadoop 生态 圈 的 一 
换 的 主要 是 MR 的 计算 模型 而 已 。 资 源 调度 依赖 于 YARN， 存 储 则 依赖 于 HDFS。 

Spark 的 大 数据 处 理 平台 是 建立 在 统一 抽象 的 RDD 之 上 。RDD 是 弹性 分 布 式 数据 集 
(Resilient Distributed Dataset) 的 英文 简称 ， 它 是 一 种 特殊 数据 集合 ， 支 持 多 种 来 源 ， 有 容错 机 
制 ， 可 以 被 缓存 ， 支 持 并 行 操作 。Spark 的 一 切 都 是 基于 RDD 的 。RDD 就 是 Spark 输入 的 数 
据 。 

Spark 应 用 程序 在 集群 上 以 独立 进程 集合 的 形式 运行 。 如 图 9-2 所 示 ， 主 程序 《叫做 Driver 
程序 ) 中 的 SparkContext 对 象 协调 Spark 应 用 程序 。SparkContext 对 象 首先 连接 到 多 种 集群 管理 
器 (如 : YARN)， 然 后 在 集群 节点 上 获得 Executor。SparkContext 把 应 用 代码 发 给 Executor， 
Executor 负责 应 用 程序 的 计算 和 数据 存储 。 


， 它 替 


河 


Driver Program 


SparkContext 了 Cluster Manager 


由 


图 92 集群 模式 


每 个 应 用 程序 都 拥有 自己 的 Executor。Executor 为 应 用 程序 提供 了 一 个 隔离 的 运行 环境 ， 以 
Task 的 形式 执行 作业 。 对 于 Spark Shell 来 说 ， 这 个 Driver 就 是 与 用 户 交互 的 进程 。 


9.1.1 安装 Spark 


最 新 的 Spark 版 本 是 1.6.1。 它 可 以 运行 在 Windows 或 Linux 机 器 上 。 运 行 Spark 需要 Java 
JDK 1.7，CentOS 6.x 系统 默认 只 安装 了 Java JRE， 还 需要 安装 Java JDK， 并 确保 配置 好 
JAVA_HOME、PATH 和 CLASSPATH 变量 。 此 外 ，Spark 会 用 到 HDFS 与 YARN， 因 此 读者 
要 先 安装 好 Hadoop。 我 们 可 以 从 Spark 官方 网 站 http://spark.apache.org/downloads.html 上 下 载 
Spark， 如 图 9-3 所 示 。 
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Download Apache Spark 


Our latest version is Spark 1.6.1, released on March 9, 2016 (release notes) (git tag) 


1. Choose a Spark release:|16.1(Mar 09 2016) ~ 


2. Choose a package type: | Pre-build with user-provided Hadoop [can use with most Hadoop distributions] ~ 
3. Choose a download type: | Direct Download ~ 
4. Download Spark: spark-1.6.1-bin-without-hadoop.tgz 


5. Verify this release using the 1.6.1 signatures and checksums. 
Note: Scala 2.11 Users should download the Spark source package and build with Scala 2.11 support. 


图 9-3 下 载 安 装 包 
有 几 种 Package type， 分 别 为 : 
@ Source code: Spark 源码 ， 需 要 编译 才能 使 用 。 
®@ Pre-build with user-provided Hadoop: “Hadoop free” 版 ， 可 应 用 到 任意 Hadoop 版 
本 。 
@ Pre-build for Hadoop 2.6 and later: 基于 Hadoop 2.6 的 预 编 译 版 ,需要 与 本 机 安装 的 


Hadoop 版 本 对 应 。 可 选 的 还 有 Hadoop 2.4 and later、Hadoop 2.3、Hadoop 1.x,， 以 及 
CDH 4. 


本 书 选 择 的 是 Pre-build with user-provided Hadoop， 简 单 配置 后 可 应 用 到 任意 Hadoop 版 
本 。 下 载 后， 执行 如 下 命令 进行 安装 : 


9.1.2 配置 Spark 


安装 后 ， 进 入 conf 目录 ， 以 spark-env.sh.template 文件 为 模块 创建 spark-env.sh 文件 ， 然 后 修 
改 其 配置 信息 ， 命 令 如 下 : 


编辑 ./confyspark-env.sh (vim ./conf/spark-env.sh)， 在 文件 的 最 后 加 上 如 下 一 行 : 


保存 后 ，Spark 就 可 以 启动 和 运行 了 。 在 ./examples/src/main 目录 下 有 一 些 Spark 的 示例 
程序 ， 有 Scala、Java、Python、R 等 语言 的 版 本 。 我 们 可 以 先 运 行 一 个 示例 程序 SparkPi〈 即 
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计算 的 近似 值 )， 执 行 如 下 命令 : 


执行 时 会 输出 非常 多 的 运行 信息 ， 输 出 结果 不 容易 找到 ， 可 以 通过 grep 命令 进行 过 滤 ( 命 
令 中 的 2>&1 可 以 将 所 有 的 信息 都 输出 到 stdout 中 ): 


过 滤 后 的 运行 结果 为 x 的 5 位 小 数 近似 值 。 


9.2 spark shell 


以 前 的 统计 和 机 器 学 习 依赖 于 数据 抽样 。 从 统计 的 角度 来 看 ， 抽 样 如 果 足 够 随机 ， 其 实 可 以 
很 精准 地 反应 全 集 的 结果 ， 但 事实 上 往往 很 难 做 到 随机 ， 所 以 通常 做 出 来 也 会 不 准 。 现 在 大 数据 
解决 了 这 个 问题 ， 它 不 是 通过 优化 抽样 的 随机 来 解决 ， 而 是 通过 全 量 数 据 来 解决 。 要 解决 全 量 的 
数据 就 需要 有 强大 的 处 理 能 力 ，Spark 首先 具备 强大 的 处 理 能 力 ， 其 次 Spark Shell 带 来 了 即席 查 
询 。 做 算法 的 工程 师 ， 以 前 经 常 是 在 小 数据 集 上 跑 个 单机 ， 然 后 看 效果 不 错 ， 一 到 全 量 上 ， 就 可 
能 和 单机 效果 很 不 一 样 。 有 了 Spark 后 就 不 一 样 了 ， 尤 其 是 有 了 Spark Shell。 可 以 边 写 代码 ， 边 
运行 ， 边 看 结果 。Spark 提供 了 很 多 的 算法 ， 最 常用 的 是 贝 叶 斯 、word2vec、 线 性 回归 等 。 作 为 
算法 工程 师 ， 或 者 大 数据 分 析 师 ， 一 定 要 学 会 用 Spark Shell。 

Spark Shell 提供 了 简单 的 方式 来 学 习 Spark API， 也 提供 了 交互 的 方式 来 分 析 数 据 。Spark 
Shell 支持 Scala 和 Python， 本 书 选择 使 用 Scala 来 进行 介绍 。Scala 集成 了 面向 对 象 和 函数 语 
言 的 特性 ， 并 运行 于 Java 虚拟 机 之 上 ， 兼 容 现 有 的 Java 程序 。Scala 是 Spark 的 主要 编程 语 
言 ， 如 果 仅 仅 是 写 Spark 应 用 ， 并 非 一 定 要 用 Scala， 用 Java 和 Python 都 是 可 以 的 。 使 用 
Scala 的 优势 是 开发 效率 更 高 ， 代 码 更 精简 ， 并 且 可 以 通过 Spark Shell 进行 交互 式 实时 查询 ， 
方便 排查 问题 。 执 行 如 下 命令 启动 Spark Shell: 


启动 成 功 后 会 有 “scala > ”的 命令 提示 符 。 这 表明 已 经 成 功 启动 了 Spark Shell。 在 Spark 
Shell 启动 时 ， 输 出 日 志 的 最 后 有 这 么 几 条 信息 : 


这 些 信息 表明 SparkContext 已 经 初始 化 好 了 ， 可 通过 对 应 的 sc 变量 直接 进行 访问 。Spark 
的 主要 抽象 是 分 布 式 的 数据 集合 RDD， 它 可 被 分 发 到 集群 各 个 节点 上 ， 进 行 并 行 操作 。 一 个 
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RDD 可 以 通过 Hadoop InputFormats 创建 (如 HDFS)， 或 者 从 其 他 RDDs 转化 而 来 。 下 面 我 
们 从 /README 文件 新 建 一 个 RDD， 代 码 如 下 : 


上 述 的 sc 是 Spark 创建 的 SparkContext， 我 们 使 用 SparkContext 对 象 加 载 本 地 文件 
README.md 来 创建 RDD。 输 出 结果 如 下 : 


上 述 返 回 结果 为 一 个 MapPartitionsRDD 文件 。 需 要 说 明 的 是 ， 加 载 HDFS 文件 和 本 地 文件 
都 是 使 用 textFile ， 区 别 在 于 前 级 “hdfs:/” 为 HDFS 文件 ， 而 “file/ ”为 本 地 文件 。 上 述 代码 
中 通过 “file://” 前 级 指定 读 取 本 地 文件 ， 直 接 返 回 MapPartitionsRDD。Spark Shell 默认 方式 是 读 
取 HDFS 中 的 文件 。 从 HDFS 读 取 的 文件 先 转换 为 HadoopRDD ， 然 后 隐 式 转换 成 
MapPartitionsRDD 。 

上 面 的 例子 使 用 Spark 中 的 文本 文件 README.md 创建 一 个 RDD textFile， 文 件 中 包含 了 若 
干 文本 行 。 将 该 文本 文件 读 入 RDD textFile 时 ， 其 中 的 文本 行将 被 分 区 ， 以 便 能 够 分 发 到 集群 中 
并 行 化 操作 。 我 们 可 以 想象 ， RDD 有 多 个 分 区 ， 每 个 分 区 上 有 多 行 的 文本 内 容 。RDDs 支持 两 
种 类 型 的 操作 : 


@ actions: 在 数据 集 上 运行 计算 后 返回 结果 值 。 
@ transformations: 转换 。 从 现 有 RDD 创建 一 个 新 的 RDD。 


下 面 我 们 演示 count0 和 first0 操 作 : 


输出 结果 为 : 


输出 结果 为 : 


上 面 这 两 个 例子 都 是 action 的 例子 。 接 着 演示 transformation， 通 过 filter transformation 来 
筛选 出 包含 Spark 的 行 ， 返 回 一 个 新 的 RDD， 代 码 如 下 : 


第 9 章 Spark 技术 


上 面 的 linesWithSpark RDD 有 多 个 分 区 ， 每 个 分 区 上 只 有 包含 了 Spark 的 若干 文本 行 。 输 出 
结果 为 : 


上 述 结果 表明 一 共有 17 行内 容 包含 “Spark”， 这 与 通过 Linux 命令 cat /README.md | 
grep "Spark" -c 得 到 的 结果 一 致 ， 说 明 是 正确 的 。action 和 transformation 可 以 用 链 式 操作 的 方 
式 结合 使 用 ， 使 代码 更 为 简洁 : 


RDD 的 actions 和 transformations 可 用 在 更 复杂 的 计算 中 。 例 如 ， 通 过 如 下 代码 可 以 找到 包 
含 单词 最 多 的 那 一 行内 容 共 有 几 个 单词 : 


EE 
[3 
洱 
外 


HH 


上 述 代 码 将 每 一 行文 本 内 容 使 用 split 进行 分 词 ， 并 统计 分 词 后 的 单词 数 。 将 每 一 行内 容 
map 为 一 个 整数 ， 这 将 创建 一 个 新 的 RDD， 并 在 这 个 RDD 中 执行 reduce 操作 ， 找 到 最 大 的 
数 。map()、reduce() 中 的 参数 是 Scala 的 函数 字面 量 (function literals)， 并 且 可 以 使 用 Scala/Java 
的 库 。 例 如 ， 通 过 使 用 Math.max0 函数 〈 需 要 导入 Java 的 Math 库 )， 可 以 使 上 述 代码 更 容易 
里 解 : 


he 


词 频 统计 (WordCount) 是 Hadoop MapReduce 的 入 门 程序 ，Spark 可 以 更 容易 地 实现 。 首 先 
结合 fatMap、map 和 reduceKey 来 计算 文件 中 每 个 单词 的 词 频 : 


输出 结果 为 (string，inb 类 型 的 键 值 对 ShuffledRDD。 这 是 因为 reduceByKey 操作 需要 进行 
Shuffle 操作 ， 返 回 的 是 一 个 Shuffle 形式 的 ShuffleRDD: 
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然后 使 用 collect 聚合 单词 计算 结果 : 


输出 结果 为 : 


Spark 支持 将 数据 缓存 在 集群 的 内 存 缓存 中 ， 当 数据 需要 反复 访问 时 这 个 特征 非常 有 用 。 调 
用 cache0)， 就 可 以 将 数据 集 进行 缓存 : 


9.3 Spark 编程 


无 论 Windows 或 Linux 操作 系统 ， 都 是 基于 Eclipse 或 Idea 构建 开发 环境 ， 通 过 Java、Scala 
或 Python 语言 进行 开发 。 根 据 开发 语言 的 不 同 ， 我 们 需要 预先 准备 好 JDK、Scala 或 Python 环 
境 ， 然 后 在 Eclipse 中 下 载 安装 Scala 或 Python 插件 。 

下 面 我 们 通过 一 个 简单 的 应 用 程序 SimpleApp 来 演示 如 何 通过 Spark API 编写 一 个 独立 应 
用 程序 。 不 同 于 使 用 Spark Shell 自动 初始 化 的 SparkContext， 独 立 应 用 程序 需要 自己 初始 化 一 个 
SparkContext， 将 一 个 包含 应 用 程序 信息 的 SparkConf 对 象 传递 给 SparkContext 构造 函数 。 对 于 
独立 应 用 程序 ， 使 用 Scala 编写 的 程序 需要 使 用 sbt 进行 编译 打包 ， 相 应 地 ，Java 程序 使 用 
Maven 编译 打包 ， 而 Python 程序 通过 spark-submit 直接 提交 。 

在 终端 中 执行 如 下 命令 ， 创 建 一 个 文件 夹 sparkapp 作为 应 用 程序 根 目 录 : 


9.3.1 编写 Spark API 程序 


在 ./sparkapp/src/main/scala 下 建立 一 个 名 为 SimpleAppscala 的 文件 
(vim ./sparkapp/src/main/scala/SimpleApp.scala)， 添 加 代码 如 下 : 
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上 述 程序 计算 /usr/local/spark/README 文件 中 包含 “a” 的 行 数 和 包含 “b” 的 行 数 。 
不 同 于 Spark Shell， 独 立 应 用 程序 需要 通过 “val sc = new SparkContext(conf) ”初始 化 
SparkContext，SparkContext 的 参数 SparkConf 包含 了 应 用 程序 的 信息 。 


9.3.2 ”使 用 sbt 编译 并 打 成 jar 包 


该 程序 依赖 Spark API， 因 此 我 们 需要 通过 sbt (或 mvn) 进行 编译 打包 。 我 们 以 sbt 为 例 ， 
创建 一 个 包含 应 用 程序 代码 的 jar 包 。 在 .sparkapp 中 新 建文 件 simple.sbt 
(vim .sparkapp/simplesbt)， 添 加 如 下 内 容 ， 声 明 该 独立 应 用 程序 的 信息 以 及 与 Spark 的 依赖 关 


| 


文件 simple.sbt 需要 指明 Spark 和 Scala 的 版 本 。 上 述 版 本 信息 可 以 从 Spark Shell 获得 。 我 
们 启动 Spark Shell 的 过 程 中 ， 当 输出 到 Spark 的 符号 图 形 时 ， 可 以 看 到 相关 的 版 本 信息 。 
Spark 中 没有 自 带 sbt， 需 要 手动 安装 sbt， 我 们 选择 安装 在 /usr/local/sbt 中 : 


下 载 sbt 后 ， 拷 贝 至 /usr/local/sbt 中 。 接 着 在 /usr/local/sbt 中 创建 sbt 脚本 (vim ./sbt)， 添 
加 如 下 内 容 : 
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保存 后 ， 为 .sbt 脚本 增加 可 执行 权限 : 


最 后 检验 sbt 是 否 可 用 : 


只 要 能 得 到 版 本 信息 就 说 明 sbt 安装 没 问题 了 。 接 着 ， 我 们 可 以 通过 如 下 代码 将 整个 应 用 程 
序 打包 成 JAR 文件 : 


打包 成 功 的 话 ， 会 输出 “Done Packaging ”信息 。 生 成 的 jar 包 的 位 置 为 
~/sparkapp/target/scala-2.10/simple-project_2.10-1.0.jar。 


9.3.3 ”运行 程序 
一 旦 应 用 程序 被 打包 成 jar 文件 ， 就 可 以 通过 /bin/spark-submit 脚本 启动 应 用 程序 。 将 生成 
的 jar 包 通过 spark-submit 提交 到 Spark 中 运行 了 ， 命 令 如 下 : 


如 果 你 觉得 输出 信息 太 多 ， 可 以 通过 如 下 命令 过 滤 结 果 信息 : 


最 终 得 到 的 结果 如 下 : 


9.4 Rpp 


上 面 几 节 描述 了 Spark 程序 的 基本 步骤 ， 让 读者 有 了 一 个 真实 的 体验 。 由 于 Spark 一 切 都 是 
基于 RDD 的 ，RDD (Resilient Distributed Datasets， 弹 性 分 布 式 数据 集 》 就 是 Spark 输入 的 数 
据 。 本 节 我 们 首先 阐述 RDD 的 由 来 ， 然 后 详细 阐述 RDD 的 创建 和 操作 。 

我 经 常 在 想 ，Spark 当初 为 何 提出 RDD 概念 ， 相 对 于 Hadoop，RDD 给 Spark 带 来 何等 优 
势 ? 我 们 知道 ， 对 于 Hadoop 中 一 个 独立 的 计算 ， 例 如 在 一 个 迭代 过 程 中 ， 除 文件 系统 
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(HDFS) 外 没有 提供 其 他 存储 的 概念 。 两 个 MapReduce 作业 之 间 数 据 共享 只 有 一 个 办 法 ， 就 是 

将 其 写 到 一 个 外 部 存储 系统 ， 如 分 布 式 文件 系统 。 这 会 引起 大 量 的 开销 ， 拉 长 应 用 的 执行 时 间 。 
所 以 ， 如 果 在 计算 过 程 中 能 共享 数据 ， 那 将 会 降低 集群 开销 ， 同 时 还 能 减少 任务 执行 时 间 。 而 
Spark 中 的 RDD 就 是 让 用 户 可 以 直接 控制 数据 的 共享 。 RDD 具有 可 容错 和 并 行 数据 结构 特征 ， 
可 以 指定 数据 存储 到 硬盘 还 是 内 存 ， 控 制 数据 的 分 区 方法 ， 并 在 数据 集 上 进行 丰富 的 操作 。 当 一 
个 RDD 的 某 个 分 区 丢失 的 时 候 ，RDD 有 足够 的 信息 记录 其 如 何 通过 其 他 的 RDD 进行 计算 ， 且 
只 需 重新 计算 该 分 区 。 因 此 ， 丢 失 的 数据 可 以 很 快 恢复 ， 而 不 需要 昂贵 的 复制 代价 。 

Spark 和 很 多 其 他 分 布 式 计算 系统 的 思想 是 : 把 一 个 超大 的 数据 集 ， 切 分 成 N 个 小 堆 ， 找 M 个 
执行 器 (M < N)， 各 自 拿 一 块 或 多 块 数据 操作 ， 操 作 结 果 再 收集 在 一 起 。 这 个 拥有 多 个 分 块 的 数据 
集 就 叫 RDD。RDD 是 一 个 分 区 的 只 读 记 录 的 集合 。Spark 在 集群 中 并 行 地 执行 任务 ， 并 行 度 由 
Spark 中 的 RDD 决定 。RDD 中 的 数据 被 分 区 存储 在 集群 中 碎片 化 的 数据 存储 方式 )， 正 是 由 于 数 
据 的 分 区 存储 使 得 任务 可 以 并 行 执行 。 分 区 数量 越 多 ， 并 行 越 高 。RDD 具有 几 个 特征 : 

@ 分 区 (partition ) : 一 个 RDD 有 多 个 分 区 组 成 ， 等 于 将 RDD 数据 切 分 。 分 区 数据 是 数 

据 集 的 原子 组 成 部 分 ， 能 够 进行 并 行 计算 。 如 图 9-4 所 示 ， 一 个 RDD 有 3 个 分 区 。 
@ 算 子 (compute ) : 用 于 说 明 在 RDD 上 执行 何 种 计算 ， 图 9-4 描述 了 RDD 的 多 种 算 
子 。 我 们 可 以 简单 地 把 算 子 等 同 于 函数 。 


Spark RDD 空 间 
9-4 RDD 操作 


@ ”依赖 (dependency ) : 计算 每 个 RDD 对 父 RDD 的 依赖 列表 。 下 面 分 小 节 描 述 两 种 依 


9.4.1 RDD 算 子 和 RDD 依赖 关系 
算 子 是 RDD 中 定义 的 函数 ， 图 94 描述 了 Spark 在 运行 过 程 中 通过 算 子 对 RDD 进行 创建 、 
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转换 〈Transformation) 和 行动 (Action)。RDD 转换 和 行动 统称 为 RDD 操作 。 我 们 按照 数据 的 
处 理 步 骤 描 述 各 个 算 子 : 


(1) 输入 : 在 Spark 程序 运行 中 ， 数 据 从 外 部 数据 空间 〈 如 分 布 式 存储 : textFile 读 取 
HDFS 等 ，parallelize 方法 输入 Scala 集合 或 数据 ) 输入 Spark， 创 建 了 RDD， 数 据 进 入 了 Spark 
RDD 空间 。 

(2) 运行 : 在 Spark 输入 数据 形成 RDD 后 便 可 以 通过 变换 算 子 ， 如 filter 等 ， 对 数据 进行 
操作 并 将 RDD 转化 为 新 的 RDD， 通 过 Action 算 子 ， 触 发 Spark 提交 作业 。 如 果 数 据 需 要 复 
用 ， 可 以 通过 Cache 算 子 ， 将 数据 缓存 到 内 存 。 

(3) 输出 : 程序 运行 结束 后 ， 数 据 会 存储 到 分 布 式 存储 中 〈 如 saveAsTextFile 输出 到 
HDFS)， 或 Scala 数据 或 集合 中 (collect 输出 到 Scala 集合 ，count 返回 Scala int 型 数据 )。 


需要 注意 的 是 ， 创 建 RDD 并 不 会 导致 集群 执行 分 布 式 计 算 。 相 反 ，RDD 只 是 定义 了 作为 
计算 过 程 中 间 步 又 的 逻辑 数据 集 ， 只 有 调用 RDD 上 的 action 时 ， 分 布 式 计算 才 会 真正 执行 。 读 
者 可 以 形象 地 理解 为 ， 除 了 action 之 外 ， 前 面 的 代码 都 只 是 在 定义 一 个 数据 处 理 流 的 各 个 步骤 
(创建 RDD， 转 换 RDD， 等 等 )， 只 有 碰 到 了 action， 才 提交 给 集群 上 执行 这 个 流程 。 

如 图 9-4 所 示 ， 大 致 可 以 分 为 三 大 类 算 子 : 


@ Value 数据 类 型 的 Transformation 算 子 ， 这 种 转换 并 不 触发 提交 作业 ， 针 对 处 理 的 数据 
项 是 Value 型 的 数据 。 
@ Key-Value 数据 类 型 的 Transfromation 算 子 ， 这 种 转换 并 不 触发 提交 作业 ， 针 对 处 理 的 
数据 项 是 Key-Value 型 的 数据 对 。 
@ Action 算 子 ， 这 类 算 子 会 触发 SparkContext 提交 Job 作业 。 
为 了 创建 RDD， 可 以 从 外 部 存储 中 读 取 数据 ， 例 如 从 HDFS 或 其 他 Hadoop 支持 的 输入 数 
据 格式 中 读 取 。 也 可 以 通过 读 取 文件 、 数 组 或 JSON 格式 的 数据 来 创建 RDD。 对 于 应 用 来 说 ， 
数据 是 本 地 化 的 ， 此 时 你 仅 需要 使 用 parallelize 方法 ， 便 可 以 将 Spark 的 特性 作用 于 相应 数据 ， 
并 通过 Apache Spark 集群 对 数据 进行 并 行 化 分 析 。 比 如 : 
val thingsRDD = sc.parallelize(List("spoon"， "fork", "Plate"， "cup", 
"bottle")) 


运行 Spark 时 ， 需 要 创建 SparkContext。 使 用 Spark Shell 交互 式 命令 行 时 ，SparkContext 会 

自动 创建 (就 是 上 述 命 令 中 的 sc)。 当 调用 SparkContext 对 象 的 parallelize 方法 后 ， 我 们 会 得 到 
-个 经 过 分 区 的 RDD， 这 些 数据 将 被 分 发 到 集群 的 各 个 节点 上 。 

Spark 的 核心 数据 模型 是 RDD， 但 RDD 是 个 抽象 类 ， 具 体 由 各 子 类 实现 ， 如 
MappedRDD、ShuffledRDD 等 子 类 。Spark 将 常用 的 大 数据 操作 都 转化 成 为 RDD 的 子 类 。 图 9-5 
显示 了 RDD 的 一 个 使 用 案例 。 通 过 TextFile 从 HDFS 上 创建 RDD， 然 后 通过 flatmap、map 和 
join 转换 ， 最 后 通过 saveAsQuenceFile 操作 存储 在 HDFS 和 HBase 上 。 当 用 户 对 一 个 RDD 执行 
action (如 count 或 save) 操作 时 ， 会 构建 一 个 由 若干 阶段 (stage) 组 成 的 一 个 DAG (有 向 无 环 
图 ) 以 执行 程序 。 
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图 9-5 RDD 示例 
Spark 中 的 表示 RDD 之 间 的 依赖 关系 主要 分 为 两 类 : 


@ 。 窜 依 赖 ， 父 RDD 的 每 个 分 区 都 至 多 被 一 个 子 RDD 的 分 区 使 用 ; 
@ 宽 依 赖 : 子 RDD 的 每 个 分 区 都 依赖 于 所 有 父 RDD 的 所 有 分 区 或 多 个 分 区 ， 也 就 是 说 
存在 一 个 父 RDD 的 一 个 分 区 对 应 一 个 子 RDD 的 多 个 分 区 。 


例如 ，map 操作 是 一 种 罕 依 赖 ， 而 join 操作 是 一 种 宽 依 赖 。 宽 依赖 需要 所 有 的 父 RDD 数据 
可 用 并 且 数 据 已 经 通过 类 MapReduce 的 操作 shuffle 完成 。 每 个 stage 都 包含 尽 可 能 多 的 连续 的 
窄 依赖 型 转换 。 各 个 阶段 之 间 的 分 界 则 是 宽 依赖 所 需 的 shuffle 操作 。 

在 创建 RDD 之 后 ， 既 可 以 进行 数据 转换 ， 也 可 以 对 其 进行 action 操作 。 这 意味 着 使 用 
transformation 可 以 改变 数据 格式 、 进 行 数据 查询 或 数据 过 滤 操 作 等 ， 使 用 action 操作 ， 可 以 触 
发 数据 的 改变 、 抽 取 数 据 、 收 集 数据 甚至 进行 计数 。 


9.4.2 RDD 转换 操作 


Transformation 转换) 是 指 从 已 经 存在 的 数据 集 上 创建 一 个 新 的 数据 集 ， 是 数据 集 的 逻辑 
操作 ， 并 没有 真正 计算 。 我 们 可 以 理解 转换 操作 为 一 种 惰性 操作 ， 它 只 是 定义 了 一 个 新 的 
RDD， 而 不 是 立即 计算 它 。 相 反 ，action 操作 则 是 立即 计算 ， 并 返回 结果 给 程序 ， 或 者 将 结果 写 
入 到 外 部 存储 中 。RDD 转换 操作 包含 了 下 面 两 大 类 转换 操作 。 


1. 基础 转换 操作 

@ ”map(func): 由 数据 集中 的 每 条 元 素 经 过 func 函数 转换 后 组 成 一 个 新 的 分 布 式 数 据 集 ; 

@ filter(func): 过 滤 作 用 ， 选 取 数 据 集中 让 func 函数 返回 值 为 true 的 元 素 组 成 一 个 新 的 数 
据 集 ; 

@@ flatMap(func): 类 似 于 map， 但 是 每 一 个 输入 元 素 ， 会 被 映射 为 0 到 多 个 输出 元 素 ( 因 
此 ，func 函数 的 返回 值 是 一 个 Seq， 而 不 是 单一 元 素 ) ; 

@ sample(withReplacement frac, seed): 根据 给 定 的 随机 种 子 seed， 随 机 抽样 出 数量 为 frac 
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的 数据 (可 以 选择 有 无 蔡 代 replacement ) ; 

union(otherDataseb): 返回 一 个 新 的 数据 集 ， 由 原 数据 集 和 参数 联合 而 成 ; 
mapPartitions(func): 类 似 于 map， 但 单独 运行 在 RDD 分 区 ; 
intersection(otherDataset): 返回 一 个 数据 集 交 集 元 素 的 新 的 RDD; 
distinct([numTasks]): 返回 一 个 数据 集 去 重 之 后 的 新 的 数据 集 。 


2. 键 - 值 转换 操作 


下 面 的 转换 操作 只 能 在 键 - 值 对 形式 的 RDD 上 执行 。 最 常见 的 就 是 shuffle 操作 ， 通 过 键 进 
行 分 组 或 聚合 元 素 。 比 如 : reduceByKey 操作 对 文件 中 每 行 出 现 的 文字 次 数 进行 计算 。 


@ groupByKey([numTasks]): 当 在 一 个 由 键 值 对 (K,V ) 组 成 的 数据 集 上 调用 时 ， 按 照 K 
进行 分 组 ， 返 回 一 个 (K，Seq[V]) 对 的 数据 集 。 注 意 : 默认 情况 下 ， 输 出 的 并 行程 度 
取决 于 父 RDD 的 分 区 数 ， 但 是 你 可 以 传 入 可 选 的 numTasks 参数 来 设置 不 同 数目 的 并 
行 任务 。 

@ reduceByKey(func，[numTasks]): 当 在 一 个 键 值 对 (KK，V) 的 数据 集 上 调用 时 ， 返 回 一 
个 (K，V ) 对 的 数据 集 ，key 相同 的 值 ， 都 被 使 用 指定 的 reduce 函数 聚合 到 一 起 。 和 
groupbykey 类 似 ， 任 务 的 个 数 是 可 以 通过 第 二 个 可 选 参数 来 配置 的 。 

@ ”join(otherDataset [numTasks]): 在 类 型 为 (K,V) 和 (K,W) 类 型 的 数据 集 上 调用 ， 返 回 一 
个 (K,(V,W)) 类 型 的 数据 集 ， 每 个 key 中 的 所 有 元 素 都 在 一 起 的 数据 集 。 


9.4.3 RDD 行动 (Action ) 操作 


对 数据 集 进行 变换 操作 〈 如 map 和 filter) 而 得 到 一 个 或 多 个 RDD， 然 后 调用 这 些 RDD 的 
actions (行动 ) 类 的 操作 。 这 类 操作 的 目的 是 返回 一 个 值 或 是 将 数据 导入 到 存储 系统 中 。 动 作 类 
的 操作 如 count (返回 数据 集 的 元 素数 )，collect (返回 元 素 本 身 的 集合 ) 和 save〔 输 出 数据 集 到 
存储 系统 )。 

虽然 RDD 的 转换 操作 是 RDD 的 核心 之 一 ， 通 过 转换 操作 实现 不 同 的 RDD， 但 是 转换 操作 
不 会 触发 Job 的 提交 ， 仅 仅 是 标记 对 RDD 的 操作 ， 形 成 DAG 图 ， 只 有 遇 到 一 个 Action 〈 行 
动 ) 操作 时 才 触 发 Job 的 执行 。spark 直到 RDD 第 一 次 调用 一 个 Action 时 才 真 正 计 算 RDD。 
Action 操作 包含 了 下 面 两 类 操作 。 

1. 常用 行动 操作 

@ reduce(func): 通过 函数 func 聚集 数据 集中 的 所 有 元 素 。func 函数 接受 2 个 参数 ， 返 回 

一 个 值 。 这 个 函数 必须 是 关联 性 的 ， 确 保 可 以 被 正确 地 并 发 执行 。 

@ collect0: 在 Driver 的 程序 中 ， 以 数组 的 形式 ， 返 回 数据 集 的 所 有 元 素 。 这 通常 会 在 使 
用 filter 或 者 其 他 操作 后 ， 返 回 一 个 足够 小 的 数据 子 集 再 使 用 。 直 接 将 整个 RDD 集 
Collect 返回 ， 很 可 能 会 让 Driver 程序 OOM。 

@ ”count0: 返回 数据 集 的 元 素 个 数 。 
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@ take(m): 返回 一 个 数组 ， 由 数据 集 的 前 n 个 元 素 组 成 。 

firstO: 返回 数据 集 的 第 一 个 元 素 (类 似 于 take(1)) 。 

@ foreach(func): 在 数据 集 的 每 一 个 元 素 上 ， 运 行 函数 func。 这 通常 用 于 更 新 一 个 累加 器 
变量 ， 或 者 和 外 部 存储 系统 做 交互 。 


上 面 的 行动 操作 可 以 实现 大 部 分 MapReduce 流 式 计算 的 任务 。 
2. 存储 行动 操作 


@ saveAsTextFile(path): 将 数据 集 的 元 素 ， 以 textfile 的 形式 ， 保 存 到 本 地 文件 系统 、 
HDFS 或 者 任何 其 他 hadoop 支持 的 文件 系统 。Spark 将 会 调用 每 个 元 素 的 toString 方 
法 ， 并 将 它 转换 为 文件 中 的 一 行文 本 。 

@ saveAsSequenceFile(path): 将 数据 集 的 元 素 ， 以 sequencefile 的 格式 ， 保 存 到 本 地 系 
统 、HDFS 或 者 任何 其 他 hadoop 支持 的 文件 系统 的 指定 的 目录 下 。RDD 的 元 素 必须 由 
key-value 对 组 成 ， 并 都 实现 了 Hadoop 的 Writable 接口 ， 或 隐 式 可 以 转换 为 Writable 
(Spark 包括 了 基本 类 型 的 转换 ， 例 如 int、double、string 等 等 ) 。 


9.4.4 ”RDD 控制 操作 


除了 RDD 转换 操作 和 Action 操作 之 外 ，RDD 还 有 控制 操作 ， 比 如 : 缓存 操作 (cache)， 释 
放 内 存 操作 (unpersist)，checkpoint 操作 (直接 将 RDD 持久 化 到 磁盘 上 )。 每 次 进行 action 操作 
时 ， 例 如 countO 操 作 ，Spark 将 重新 启动 所 有 的 转换 操作 ， 计 算 将 运行 到 最 后 一 个 转换 操作 ， 然 
后 count 操作 返回 计算 结果 ， 这 种 运行 方式 速度 会 较 慢 。 为 了 解决 该 问题 和 提高 程序 运行 速度 ， 
可 以 将 RDD 的 数据 缓存 到 内 存 当中 。 当 你 反复 运行 action 操作 时 ， 能 够 避免 每 次 计算 都 从 头 
始 ， 直 接 从 缓存 到 内 存 中 的 RDD 得 到 相应 的 结果 。 

如 果 你 想 将 RDD 从 缓存 中 清除 ， 可 以 使 用 unpersist() 方 法 。 如 果 不 手动 删除 的 话 ， 在 内 存 
空间 紧张 的 情况 下 ，Spark 会 采用 最 近 最 久未 使 用 (least recently used logic，LRU ) 调度 算法 删 
除 缓存 在 内 存 中 最 久 的 RDD。 


9.4.5 ”RDD 实例 
下 面 我 们 总 结 一 下 Spark 从 开始 到 结果 的 运行 过 程 : 


人 I01 创建 其 种 数据 类 型 的 RDD。 

GT02 对 RDD 中 的 数据 进行 转换 操作 ， 例 如 过 滤 操 作 。 

二 DI03 在 需要 重用 的 情况 下 ， 对 转换 后 或 过 滤 后 的 RDD 进行 缓存 。 

人 4 在 RDD 上 进行 action 操作 ， 例 如 提取 数据 、 计 数 、 存 储 数据 到 HDFS 等 。 


下 面 给 出 的 是 RDD 的 部 分 转换 操作 函数 : 
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filterO 

map() 

sample() 
union() 
groupbykey() 
sortbykey() 
combineByKey() 
SubtractByKey0 
mapValues() 
KeysO 

Values() 


面 给 出 的 是 RDD 的 部 分 action 操作 : 


下 
@ collect() 

® count() 

® first) 

@ countbykey() 

® saveAsTextFile() 
@@ reduce() 

® take(n) 

@@ countBykey() 
® collectAsMap() 
® lookup(key) 


下 面 我 们 来 看 几 个 实例 。 假 定 rdd 为 {1,2,3,3} 的 数据 集 ，rdd1 为 {1,2,3} 的 数据 集 ，rdd2 为 
{3,4,5} 的 数据 集 。 表 9-1 所 示 是 一 些 转换 操作 的 例子 。 


表 9-1 一 些 转换 操作 的 例子 


map rdd.map(x=>x+1) {2,3,4,4} 对 RDD 中 每 个 元 素 进行 加 1 操作 

flatMap rdd .flatMap(x=>x.to(3)) tu232333) 遍历 当前 每 个 元 素 ， 然 后 生成 从 当 
前 元 素 到 3 的 集合 

filter rdd.filter(x=>x!=1) {23,3} 过 滤 RDD 中 不 等 于 1 的 元 素 

distinct rdd.distinctO) {1,2,3} 对 RDD 元 素 去 重 

union rdd1.union(rdd2) {1,2,3,3,4,5} 返回 两 个 RDD 的 并 集 ， 不 去 重 

intersection rddlintersection(rdd2) {3} 返回 两 个 RDD 的 交集 ， 去 重 


表 9-2 所 示 是 一 些 Action 操作 的 例子 。 
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表 9-2 一 些 Action 操作 的 例子 


函数 结果 说 明 

将 一 个 RDD 转换 成 组 
Pe 汪汪 返回 RDD 中 的 元 素数 
返回 从 0 到 num-1 下 标的 RDD 元 素 ， 不 排序 
从 RDD 中 ， 按 照排 序 〈 默 认为 降序 ) 返回 前 
num 个 元 素 
根据 映射 函数 仁 x+y， 对 RDD 元 素 进行 二 元 计 
算 ， 返 回 计算 结果 
遍历 RDD 每 个 元 素 ， 并 执行 func 


collect 


rdd. [uaaeo | | 


ES 9 


(1233} 


下 面 我 们 来 看 一 个 完整 的 例子 。 假 定数 据 存储 在 HDFS 上 ， 而 数据 格式 以 “; ”作为 每 列 
数据 的 分 割 : 


Scala 代码 如 下 : 


最 后 的 返回 结果 就 是 大 于 30 岁 的 人 的 个 数 。 
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Spark SQL 是 Spark 内 嵌 的 模块 ， 是 Spark 的 一 个 处 理 结构 化 数据 的 组 件 。 在 Spark 程序 
中 可 以 使 用 SQL 查询 语句 或 DataFrame API。DataFrame 和 SQL 提供 了 通用 的 方式 来 连接 多 种 
数据 源 ， 支 持 从 Hive 表 、 外 部 数据 库 、 结 构 化 数据 Parquet 文件 、JSON 文件 上 获得 数据 ， 并 且 
可 以 在 多 种 数据 源 之 间 执 行 join 操作 。 

Spark SQL 的 功能 是 通过 SQLContext 类 来 提供 的 ，SQLContext 是 一 个 入 口 类 。 要 创建 一 个 
SQLContext， 首 先 需 要 一 个 SparkContext， 然 后 通过 SparkContext 实例 化 一 个 SQLContext。 在 
Spark Shell 启动 时 ， 输 出 日 志 的 最 后 有 这 么 几 条 信息 : 


这 些 信息 表明 SparkContext 和 SQLContext 都 已 经 初始 化 好 了 ， 可 通过 对 应 的 sc、 
sqlContext 变量 直接 进行 访问 。 下 述 代码 展示 了 如 何 创建 一 个 SQLContext 对 象 : 


DataFrame (数据 框架 ) 提供 了 可 以 作为 分 布 式 SQL 查询 引擎 的 程序 化 抽象 。 使 用 
SQLContext 可 以 从 现 有 的 RDD 或 数据 源 创建 DataFrame。 下 面 的 示例 程序 是 在 安装 目录 的 
examples/src/main/resources/ 目 录 下 。 我 们 打开 peoplejson 文件 ， 这 个 文件 是 Spark 提供 的 JSON 
格式 的 数据 源 文件 ， 里 面 是 一 个 有 键 值 对 key:value〉 组 成 的 JSON 字符 串 ， 字 符 串 之 间 用 逗号 
隔 开 。 下 面 是 这 个 文件 的 一 些 内 容 : 


Spark Shell 启动 后 ， 就 可 以 用 Spark SQL API 执行 数据 分 析 查 询 。 下 面 使 用 sqlContext.read 
函数 从 JSON 文件 导入 数据 源 ， 创 建 一 个 DataFrame 〈 下 面 代码 中 的 df): 


输出 结果 为 : 


然后 通过 DataFrame 的 Action 操作 show 来 显示 数据 : 
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输出 结果 为 : 


9.5.1 DataFrame 

相对 于 MapReduce API，Spark 的 RDD 抽象 简化 了 开发 ， 而 DataFrame 进一步 抽象 了 数据 
集 。 如 图 9-6 所 示 ，DataFrame 类 似 于 RDBMS 的 表 ， 每 列 都 有 名 称 和 类 型 。 通 过 DataFrame， 
可 以 对 数据 进行 类 似 SQL 的 操作 。DataFrame 将 数据 保存 为 行 的 集合 ， 对 应 行 中 的 各 列 都 被 命 
名 ， 通 过 使 用 DataFrame， 可 以 非常 方便 地 查询 和 过 滤 数 据 。 


EL Age | Salary 


employee String int Double 
employee String int Double 
See String int Double 
RDD[employee] DataFrame[employee] 


图 9-6 RDD 和 DataFrame 的 比较 


从 体系 结构 上 看 ，DataFrame 支持 多 种 数据 源 。 如 图 9-7 所 示 ， 支 持 从 Hive 表 、 外 部 数据 
库 、 结 构 化 数据 Parquet 文件 、JSON 文件 、RDD 等 上 获得 数据 。 数 据 一 旦 被 读 取 ， 借 助 于 
DataFrames 便 可 以 很 方便 地 进行 数据 过 滤 、 列 查询 、 计 数 、 求 平均 值 及 将 不 同 数 据 源 的 数据 进 


行 整合 。 


结构 化 数据 文件 


JSON Parquet 


如 图 9-8 所 示 ， 使 用 Spark SQL 主要 分 为 三 大 步 又: 


人 BI01 利用 sqlContext 从 外 部 数据 源 加 载 数据 为 DataFrame。 
502 利用 DataFrame 上 丰富 的 API 进 行 查询 、 转 换 。 
人 03 将 结果 进行 展现 或 存储 为 各 种 外 部 数据 形式 。 
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1. 加 载 数据 


sqlContext 支持 从 各 种 各 样 的 数据 源 中 创建 DataFrame， 内 置 支持 的 数据 源 有 parquetFile、 
JSON 文件 、 外 部 数据 库 、Hive 表 、RDD 等 : 


2. 使 用 DataFrame 
Spark DataFrame 提供 了 一 整套 用 于 操纵 数据 的 DSL。 这 些 DSL 在 语义 上 与 SQL 关系 查询 
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非常 相近 《这 也 是 Spark SQL 能 够 为 DataFrame 提供 无 缝 支持 的 重要 原因 之 一 )。 下 面 我 们 来 看 
看 DataFrames 处 理 结构 化 数据 的 一 些 基本 操作 : 


当然 ， 我 们 也 可 以 直接 使 用 SQL 语句 来 进行 操作 : 


大 数据 技术 入 门 】 


3. 保存 结果 
对 数据 的 分 析 完 成 之 后 ， 可 以 将 结果 保存 在 多 种 形式 的 外 部 存储 中 : 


下 面 汇 总 了 常见 的 功能 : 
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更 多 的 功能 可 以 查看 完整 的 DataFrames API ， 此 外 DataFrames 也 包含 了 丰富 的 
DataFrames Function ， 可 用 于 字符 串 处 理 、 日 期 计算 、 数 学 计算 等 。 


9.5.2 RDD 转化 为 DataFrame 


Spark SQL 支持 两 种 不 同 的 方法 将 RDD 转化 为 DataFrame。 下 面 代码 是 使 用 反射 机 制 来 推 
断 RDD 的 模式 。Spark SQL 的 Scala 接口 支持 自动 转换 一 个 包含 case 类 的 RDD 为 一 个 
DataFrame。case 类 定义 了 表 的 schema， 使 用 反射 读 取 case 类 的 参数 名 为 列 名 。RDD 可 以 隐 式 
转换 成 一 个 DataFrame， 并 注册 成 一 个 表 ， 表 可 以 用 于 后 续 的 SQL 查询 语句 。 

下 面 我 们 来 看 一 个 例子 。 假 定 一 个 文本 文件 customers.txt 中 的 内 容 如 下 : 


我 们 从 文本 文件 中 加 载 用 户 数 据 ， 并 从 数据 集中 创建 一 个 DataFrame 对 象 。 然 后 运行 
DataFrame 函数 ， 执 行 特定 的 数据 选择 查询 。 下 述 的 代码 也 可 以 在 Spark Shell 终端 执行 的 Spark 
SQL 命令 。 
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ET 


在 上 一 示例 中 ， 模 式 是 通过 反射 而 得 来 的 。 我 们 也 可 以 通过 编程 的 方式 指定 数据 集 的 模 
式 。 这 种 方法 在 由 于 数据 的 结构 以 字符 串 的 形式 编码 而 无 法 提前 定义 定制 类 的 情况 下 非常 实用 。 
下 面 这 个 例子 展示 了 如 何 使 用 数据 类 型 类 StructType、StringType 和 StructField 指定 模式 。 
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Spark SQL 的 调 优 参数 可 以 用 来 性 能 调 优 。 比 如 : 


® spark.sql.inMemoryColumnarStorage.compressed: 默认 值 为 tue。 当 设置 为 true 时 ， 
Spark SQL 将 为 基于 数据 统计 信息 为 每 列 自动 选择 一 个 压缩 算法 。 

® spark.sql.inMemoryColumnarStorage.batchSize: 默认 为 10000， 控 制 列 式 缓存 的 批 处 理 
大 小 。 大 批量 可 以 提高 内 存 的 利用 率 以 及 压缩 率 ， 但 有 OOM 的 风险 。 


9.5.3 JDBC 数据 源 


在 9.5.1 小 节 中 冰 述 了 从 一 个 JSON 数据 源 中 加 载 数据 为 DataFrame，Spark SQL 还 支持 
JDBC 数据 源 。JDBC 数据 源 可 用 于 通过 JDBC API 读 取 关 系 型 数据 库 中 的 数据 。JDBC 数据 源 能 
够 将 结果 作为 DataFrame 对 象 返回 ， 并 直接 用 Spark SQL 处 理 或 join 其 他 数据 源 。 

为 了 访问 某 一 个 关系 数据 库 ， 需 要 将 其 驱动 添加 到 classpath， 例 如 : 


Es 
访问 JDBC 数据 源 需要 提供 以 下 参数 : 


@ url: 待 连接 的 JDBC URL; 

@ ”dbtable: 被 读 的 JDBC 表 ; 

@ driver: JDBC 驱动 程序 的 类 名 ; 

@ partitionColumn、lowerBound、upperBound、numPartitions: 指定 了 多 个 workers 并 行 读 
数据 时 如 何 分 区 表 。 


Scala 的 代码 为 : 
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Java 的 代码 为 : 


9.5.4 ”Hive 数据 源 
Spark SQL 支持 从 Hive 表 中 读 写 数据 。Spark SQL 支持 的 功能 有 : 


(1) 查询 语句 : SELECT、GROUP BY、ORDER BY、CLUSTER BY、SORT BY; 
(2) Hive 操作 运算 : 
@ 关系 运算 : =、 一、 全 、<、>、>= 一 、< 等 。 
算术 运算 : +、-、*、/、% 等 。 
逻辑 运算 : AND、&&、OR、|| 等 。 
数学 函数 : (Sign、ln、cos 等 )。 
字符 串 函 数 : instr、length、printf 等 。 
(3) 用 户 自 定义 函数 CUDF); 
(4) 用 户 自 定义 聚合 函数 UDAF); 
(5) 用 户 定义 的 序列 化 格式 (SerDes); 
(6) join 操作 : JOIN、{LEFTIRIGHTIFULL} OUTER JOIN、LEFT SEMI JOIN、CROSS 


(7) unions 操作 ; 

(8) 子 查 询 : SELECT col FROM (SELECTa+bAS col fom tl) t2; 

(9) 抽样 (Sampling); 

(10) 解释 (Explain); 

(11) 分 区 表 ; 

(12) Hive DDL 函数 : CREATE TABLE、CREATE TABLE AS SELECT、ALTER TABLE; 

(13) Hive 数据 类 型 : TINYINT、SMALLINT、INT、BIGINT、BOOLEAN、FLOAT、 
DOUBLE、 STRING、 BINARY、 TIMESTAMP、 DATE、 ARRAY、 MAP、 STRUCT. 


Spark SQL 中 的 HiveContext 通过 基本 的 SQLContext 提供 了 一 系列 的 方法 集 ， 可 以 使 用 
HiveQL 解析 器 编写 查询 语句 以 及 从 Hive 表 中 读 取 数 据 时 使 用 。 比 如 : 
Scala 代码 : 
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Java 代码 : 


9.6 Spark Streaming 


流 计 算 除 了 使 用 Storm 框架 ， 使 用 Spark Streaming 也 是 一 个 很 好 的 选择 。 虽 然 Storm 保证 
了 实时 性 ， 但 实现 的 复杂 度 大 大 提高 。 而 Spark Streaming 能 够 以 准 实时 的 方式 相对 容易 地 实现 
较为 复杂 的 数据 处 理 。 基 于 Spark Streaming， 可 以 方便 地 构建 可 拓展 、 高 容错 的 流 计算 应 用 程 
序 。 

Spark Streaming 是 构建 在 Spark 上 处 理 Stream 数据 的 框架 。 如 图 9-9 所 示 ， 它 并 不 会 像 
Storm 那样 一 次 一 个 地 处 理 数据 流 ， 而 是 在 处 理 前 按时 间 间 隔 预先 将 Stream 数据 切 分 为 一 段 一 段 
的 批 处 理 作业 〈 时 间 片 断 为 几 秒 )， 以 类 似 批量 处 理 的 方式 来 处 理 这 些 切 分 好 的 数据 。 


batches of batches of 
input data Spark Pprocessed data 
Streaming 器 口 DY 口 口 DY 


9-9 Spark Streaming 工作 原理 


Spark Streaming 在 接收 到 实时 数据 后 ， 给 数据 分 批 次 ， 然 后 传 给 Spark Engine 处 理 ， 最 后 生 


input data 
stream 
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成 该 批 次 的 结果 。 它 支持 的 持续 性 数据 流 叫 DStream (Discretized Stream)， 直 接 支 持 Kafka、 
Flume 的 数据 源 。DStream 是 一 种 连续 的 RDD。 

Spark Streaming 构建 在 Spark 上 ， 一 方面 是 因为 Spark 的 低 延 迟 执行 引擎 (100ms+) 可 以 用 
于 实时 计算 ， 另 一 方面 相 比 Stom，Spark 的 RDD 数据 集 更 容易 做 高 效 的 容错 处 理 。 此 外 ， 小 批 
量 处 理 的 方式 使 得 它 可 以 同时 兼容 批量 和 实时 数据 处 理 的 逻辑 和 算法 。 方 便 了 一 些 需要 历史 数据 
和 实时 数据 联合 分 析 的 特定 应 用 场合 。Spark Streaming 使 用 Spark API 进行 流 计算 ， 在 Spark 
上 进行 流 处 理 与 批 处 理 的 方式 一 样 。 因 此 ， 你 可 以 复 用 批 处 理 的 代码 ， 使 用 Spark Streaming 构 
建 强大 的 交互 式 应 用 程序 ， 而 不 仅仅 是 用 于 分 析 数 据 。 

如 图 9-10 所 示 ，Spark Streaming 可 以 接受 来 自 Kafka、Flume 和 TCP Socket 等 的 数据 源 ， 使 
用 简单 的 API 函数 比如 map、reduce、join 等 操作 ， 就 可 以 直接 使 用 内 置 的 机 器 学 习 算法 和 图 算 
法 包 来 处 理 数据 。 经 过 处 理 的 结果 可 以 存储 在 文件 系统 (如 : HDFS)、 数 据 库 〈 如 : HBase) 等 


存储 系统 上 。 
rune 和 | Spa 要 
PaAMR Be 
Streaming [Dashboards | 


图 9-10 Spark Streaming 输入 输出 示意 图 


9.6.1 DStream 编程 模型 


下 面 这 个 例子 帮助 大 家 理解 DStream。 这 个 例子 是 基于 流 的 单词 统计 : 本 地 服务 器 通过 
TCP 接收 文本 数据 ， 实 时 输出 单词 统计 结果 。 运 行 该 示例 需要 Netcat (在 网 络 上 通过 TCP 或 
UDP 读 写 数据 )，CentOS 6.x 系统 中 默认 没有 安装 。 我 们 选择 Netcat 0.6.1 版 本 ， 在 终端 中 运行 
如 下 命令 进行 下 载 并 安装 : 


安装 好 Netcat 之 后 ， 使 用 如 下 命令 建立 本 地 数据 服务 ， 监 听 TCP 端口 9999: 


启动 后 ， 该 端口 就 被 占用 了 ， 需 要 开启 另 一 个 终端 ， 并 运行 示例 程序 ， 执 行 如 下 命令 : 
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接着 在 终端 1 中 输入 文本 ， 在 终端 2 中 就 可 以 实时 看 到 单词 统计 结果 了 。 最 后 需要 关 掉 终端 
2， 并 按 Ctrl+C 组 合 键 退出 终端 1 的 Netcat。 
对 于 上 面 的 基于 流 的 单词 统计 的 例子 ， 下 面 是 其 一 部 分 代码 : 


我 们 再 看 StreamingContext 的 socketTextStream 代码 : 


上 述 代码 使 用 SocketReceiver 的 bytesToLines 把 输入 流转 换 成 可 遍历 的 数据 。 如 果 我 们 继续 
看 socketStream， 那 么 ， 它 是 new 了 一 个 SocketInputDStream 对 象 。 如 果 查 看 它 的 继承 关系 ， 则 
SocketInputDStream >> ReceiverInputDStream >> InputDStream >> DStream。 因 此 ，DStream 是 高 
级 抽象 连续 数据 流 ， 一 个 DStream 可 以 看 作 是 一 个 RDD 的 序列 。 

下 面 这 个 代码 完成 了 上 述 的 功能 : 
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9.6.2 ”DStream 操作 


类 似 RDD， 对 于 DStream， 我 们 可 以 进行 多 种 操作 : transformations (转换)、 状 态 、output 
(输出 ) 等 。 
常见 的 转换 操作 有 : 


@ map(func) : 对 每 一 个 元 素 执行 func 函数 ， 返 回 一 个 新 的 DStream; 

flatMap(func): 类 似 map 函数 ， 但 是 可 以 map 到 0+ 个 输出 ; 

filter(func): 过 滤 ， 返 回 一 个 新 的 DStream; 

repartition(numPartitions): 通过 增加 分 区 ， 提 高 DStream 的 并 行 度 ; 

union(otherStream): 合并 两 个 DStream 的 元 素 为 一 个 新 的 DStream; 

count0: 统计 DStream 中 每 个 RDD 元 素 的 个 数 ; 

reduce(func): 对 DStream 中 的 每 个 RDD 进行 聚合 操作 (2 个 输入 参数 ，] 个 输出 参 

数 ) ; 

countByValue(): 针对 类 型 统计 ， 当 一 个 DStream 的 元 素 的 类 型 是 K 的 时 候 ， 调 用 它 会 

返回 一 个 新 的 DStream， 包 含 <K,Long> 键 值 对 ，Long 是 每 个 K 出 现 的 频率 ; 

@ reduceByKey(func，[numTasks]): 对 于 一 个 (K,V) 类 型 的 DStream， 为 每 个 key， 执 行 
func 地 数 ; 默认 local 是 2 个 线程 ，cluster 是 8 个 线程 ， 也 可 以 指定 numTasks; 

® join(otherStream, [numTasks]): 把 (K, V) 和 (K, W) 的 DStream 连接 成 一 个 (K, (V, W)) 的 新 
DStream; 

® cogroup(otherStream, [numTasks]): 把 K, V) 和 (K, W) 的 DStream 连接 成 一 个 (K, Seq[V], 
Seq[W]) 的 新 DStream; 

@ transform(func): 转换 操作 ， 把 原来 的 RDD 通过 func 转换 成 一 个 新 的 RDD。 


221 


大 数据 技术 入 门 


常见 的 状态 操作 有 : 

®@ updateStateByKey(func): 针对 key 使 用 func 来 更 新 状态 和 值 ， 返 回 一 个 新 状态 的 
DStream， 该 状态 可 以 为 任何 值 。 使 用 这 个 操作 ， 我 们 希望 保存 它 状 态 的 信息 ， 然 后 持 
续 地 更 新 它 ， 使 用 它 有 两 个 步骤 : (1) 定义 状态 ， 这 个 状态 可 以 是 任意 的 数据 类 型 ; 
(2) 定义 状态 更 新 函数 ， 从 前 一 个 状态 更 改 新 的 状态 ; 

@ reduceByKeyAndWindow(func...): Windows 操作 ， 具 体 见 下 面 的 解释 。 


对 于 Windows 操作 ， 我 们 先 看 个 例子 。 比 如 前 面 的 word count 的 例子 ， 我 们 想 要 每 隔 10 秒 
计算 一 下 最 近 30 秒 的 单词 总 数 。 那 么 ， 我 们 可 以 使 用 以 下 语句 : 


上 面 用 到 了 Windows 的 两 个 参数 : 


”window length: window 的 长 度 是 30 秒 ， 最 近 30 秒 的 数据 ; 
@ slice interval: 计算 的 时 间 间 隔 。 


窗口 的 作用 之 一 是 定期 计算 滑动 的 数据 。 如 图 9-11 所 示 ， 这 个 图 来 自 Spark 官网 ， 上 面 的 
部 分 是 DStream， 下 面 的 部 分 是 Windows 计算 后 的 DStream。 


time 1 time 2 time 3 time 4 time 5 
original 
DStream 口 口 
window-based 
operation 

windowed 
DStream 

window window window 

attime 1 attime 3 attime 5 


图 9-11 滑动 窗口 计算 
常见 的 输出 操作 为 : 
@ print0: 打印 到 控制 台 ; 
®@ foreachRDD(func): 对 DStream 里 面 的 每 个 RDD 执行 func， 保 存 到 外 部 系统 ; 
@ saveAsObjectFiles(prefix,[suffix]): 保存 流 的 内 容 为 SequenceFile， 文 件 名 : "prefix- 
TIME IN_MS[.suffix]"; 
saveAsTextFiles(prefix,[suffix]): 保存 流 的 内 容 为 文本 文件 ， 文 件 名 : "prefix- 
TIME IN_MS[.suffix]"; 
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®@ saveAsHadoopFiles(prefix，[suffix]): 保存 流 的 内 容 为 hadoop 文件 ,文件 名 : "prefix- 
TIME IN_MSL.suffix]". 


Spark Streaming 提供 了 检查 点 的 功能 ， 实 现 容错 机 制 。 我 们 知道 ， 状 态 的 操作 是 基于 多 个 批 
次 的 数据 。 它 包括 基于 Windows 的 操作 和 updateStateByKey。 因 为 状态 的 操作 要 依赖 于 上 一 个 
批 次 的 数据 ， 所 以 它 要 根据 时 间 ， 不 断 累积 元 数据 。 为 了 清空 数据 ， 它 支持 周期 性 的 检查 点 ， 通 
过 把 中 间 结 果 保 存 到 HDFS 上 。 因 为 检查 操作 会 导致 保存 到 HDFS 上 的 开销 ， 所 以 设置 这 个 时 
间 间 隔 需 要 非常 慎重 。 对 于 小 批 次 的 数据 ， 比 如 一 秒 的 ， 检 查 操 作 会 大 大 降低 吞吐 量 。 但 是 检查 
的 间隔 太 长 ， 会 导致 任务 变 大 。 通 常 来 说 ，5~10 秒 的 检查 间隔 时 间 是 比较 合适 的 。 


ssc.checkpoint (hdfsPath) // 设 置 检查 点 的 保存 位 置 
dstream.checkpoint (checkpointInterval) // 设 置 检查 点 间隔 


对 于 必须 设置 检查 点 的 DStream， 比 如 通过 updateStateByKey 和 reduceByKeyAndWindow 创 
建 的 DStream， 默 认 设 置 是 至 少 10 秒 。 


9.6.3 ”性 能 考虑 
对 于 调 优 ， 可 以 从 两 个 方面 考虑 : 


(1) 利用 集群 资源 ， 减 少 处 理 每 个 批 次 的 数据 的 时 间 。 
(2) 给 每 个 批 次 的 数据 量 设 定 一 个 合适 的 大 小 。 


像 一 些 分 布 式 的 数据 处 理 操作 ， 比 如 reduceByKey 和 reduceByKeyAndWindow， 默 认为 8 个 
并 发 线程 。 我 们 可 以 提高 数据 处 理 的 并 行 度 。 通 过 修改 参数 spark.default.parallelism 来 提高 这 个 
默认 值 。 对 于 接收 数据 的 任务 ， 也 可 以 提高 其 接收 的 并 行 度 。 

为 了 使 流 处 理 能 在 集群 上 稳定 地 运行 ， 要 使 处 理 数据 的 速度 跟 上 数据 流入 的 速度 。 最 好 的 方 
式 是 计算 这 个 批量 的 大 小 ， 我 们 首先 设置 batch size 为 5~10 秒 和 一 个 很 低 的 数据 输入 速度 。 确 定 
系统 能 跟 上 数据 的 输入 速度 的 时 候 ， 我 们 可 以 根据 经 验 设置 批 次 的 大 小 ， 通 过 查看 日 志 获 得 
Total delay 〈 总 延迟 ) 为 多 长 时 间 。 如 果 delay( 延 迟 时 间 ) 小 于 batch( 批 处 理 时 间 )， 那 么 系统 
是 稳定 的 ， 如 果 delay 一 直 增加 ， 说 明 系 统 的 处 理 速度 跟 不 上 数据 的 输入 速度 。 

优化 内 存 使 用 是 非常 重要 的 。DStream 默认 的 持久 化 级 别 是 MEMORY_ONLY_SER， 而 不 
是 RDD 的 MEMORY ONLY。Streaming 会 将 接收 到 的 数据 全 部 存储 于 可 用 的 内 存 区 域内 ， 因 此 
对 于 已 经 完成 处 理 的 数据 应 该 及 时 清理 ， 以 确保 Streaming 有 足够 的 内 存 。 默 认 地 ， 所 有 Spark 
Streaming 生成 的 持久 化 RDD 都 会 通过 LRU 算法 清除 出 内 存 。 通 过 设置 sparkcleanerttl， 
Streaming 就 能 自动 地 定期 清除 旧 的 内 容 。 但 是 设置 这 个 参数 要 很 谨慎 。 另 一 个 方法 是 设置 
spark.streaming.unpersist 为 true 来 启用 内 存 清理 ， 减 少 RDD 内 存 的 使 有 用， 这样 有 利于 提升 GC 的 
性 能 。 推 荐 使 用 并 行 mark-and-sweep GC 来 减少 GC 的 突然 暂停 的 情况 ， 虽 然 这 样 会 降低 系统 的 
吞吐 量 ， 但 是 这 样 有 助 于 系统 更 稳定 地 进行 批 处 理 。 
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9.6.4 ”容错 能 力 


如 果 全 部 输入 数据 是 在 HDFS 上 ， 因 为 HDFS 是 可 靠 的 文件 系统 ， 所 以 不 会 有 任何 的 数据 
失效 。 如 果 数 据 来 源 是 网 络 ， 比 如 Kafka 和 Flume， 为 了 防止 失效 ， 默 认 是 数据 会 保存 到 2 个 节 
点 的 内 存 中 ， 但 是 有 一 种 可 能 性 是 接收 数据 的 节点 挂 了 ， 那 么 数据 可 能 会 丢失 ， 因 为 它 还 没 来 得 
及 把 数据 复制 到 另外 一 个 节点 。 

为 了 支持 24X7 不 间断 的 处 理 ，Spark 支持 驱动 节点 失效 后 ， 重 新 恢复 计算 。Spark 
Streaming 会 周期 性 地 写 数据 到 HDFS 系统 ， 就 是 前 面 的 检查 点 的 那个 目录 。 驱 动 节点 失效 之 
后 ，StreamingContext 可 以 被 恢复 的 。 为 了 让 一 个 Spark Streaming 程序 能 够 被 恢复 ， 它 需要 做 以 
下 操作 : 

(1) 第 一 次 启动 的 时 候 ， 创 建 StreamingContext， 创 建 所 有 的 streams， 然 后 调用 start0 方 法 。 
(2) 恢复 时 ， 必 须 通过 检查 点 的 数据 重新 创建 StreamingContext。 


下 面 是 一 个 设置 检查 点 的 例子 : 


9.7 GraphX 图 计算 框架 


图 论 是 研究 一 组 实体 〈 称 为 顶点 ) 之 间 两 两 关系 〈 称 为 边 ) 的 特点 。 图 论 对 商业 领域 产生 了 
深远 的 影响 。 几 乎 所 有 大 型 互联 网 公司 都 建立 了 关系 网 络 ， 通 过 对 这 些 重要 的 关系 网 络 进行 分 
析 ， 这 些 公司 获得 了 巨大 的 价值 。 比 如 : 亚马逊 和 Netfilx 分 别 建立 并 掌握 了 顾客 -商品 购买 关系 
和 用 户 - 电 影评 分 关系 ， 并 且 基 于 这 些 关 系 构建 各 自 的 推荐 算法 。Facebook 和 LinkedIn 则 构建 了 
人 类 关系 图 谱 并 对 这 些 关 系 进行 分 析 。 在 构建 关系 网 络 方面 ， 最 有 名 的 例子 是 谷歌 的 PageRank 
算法 ， 根 据 互 联网 上 的 链接 来 源 来 判断 网 页 的 重要 程度 。 随 着 图 谱 越 来 越 大 ， 不 断 有 新 的 并 行 图 
处 理 框 架 被 开发 出 来 ， 比 如 : 谷歌 的 Pregel、 雅 虎 的 Giraph 和 卡 内 基 梅 隆 大 学 的 GraphLab 等 。 
这 些 框架 以 图 处 理 为 中 心 ， 支 持 容错 和 迭代 式 内 存 计 算 ， 大 大 提高 了 图 计算 的 处 理 效率 。 

Spark 的 GraphX 是 一 个 分 布 式 图 处 理 框架 ， 支 持 Pregel、Giraph 和 GraphLab 中 的 许多 图 并 
行 处 理 任务 。 有 了 GraphX， 你 能 够 使 用 熟悉 的 Spark 抽象 来 进行 图 并 行 编程 。Spark GraphX 基 
于 Spark 平台 提供 对 图 计算 和 图 挖掘 简洁 易 用 的 接口 ， 极 大 地 方便 了 大 家 对 分 布 式 图 处 理 的 需 
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大 家 都 知道 ， 社 交 网 络 中 人 与 人 之 间 有 很 多 关系 链 ， 例 如 Twitter、Facebook、 微 博 、 微 信 ， 
这 些 都 是 大 数据 产生 的 地 方 ， 都 需要 分 布 式 图 计算 ， 而 并 非 单机 处 理 ，Spark GraphX 由 于 底层 
是 基于 Spark 来 处 理 的 ， 所 以 天 然 就 是 一 个 分 布 式 的 图 处 理 系 统 。 图 的 分 布 式 或 者 并 行 处 理 其 实 
是 把 一 张大 图 拆 分 成 很 多 的 子 图 ， 然 后 我 们 分 别 对 这 些 子 图 进行 计算 ， 计 算 的 时 候 可 以 分 别 迭 代 
进行 分 阶段 的 计算 ， 即 对 图 进行 并 行 计算 。 

Spark GraphX 的 优势 在 于 能 够 把 表格 和 图 进行 互相 转换 。 通 过 抽象 为 弹性 分 布 式 属性 图 
(resilient distributed property graph)，GraphX 统一 了 Table 和 Graph 两 种 视图 。 只 需要 一 份 物 理 
存储 ， 就 可 以 拥有 表 和 图 的 两 种 表示 形式 ， 而 这 两 种 表现 形式 都 有 自己 的 操作 符 ， 从 而 使 得 操作 
非常 灵活 和 高 效 。 图 9-12 形象 地 表示 了 同一 原始 数据 可 能 有 许多 不 同 表 和 图 的 视图 。 在 获得 原 
始 的 Wikipedia 的 文档 以 后 ， 可 以 变 成 Table 形式 的 视图 ， 然 后 基于 Table 形式 的 视图 分 析 
Hyperlinks 超 链接 ， 也 可 以 分 析 Term-Doc Graph， 然 后 经 过 LDA 之 后 进入 WordTopics; 对 于 
Hyperlinks， 我 们 可 以 使 用 PageRank 去 分 析 。 在 下 面 的 Editor Graph 到 Community， 这 个 过 程 可 
以 称 之 为 Triangle Computation， 这 是 计算 三 角形 的 一 个 算法 ， 基 于 此 就 会 发 现 一 个 社区 。 从 上 
面 的 分 析 中 ， 我 们 可 以 发 现 图 计算 有 很 多 的 做 法 和 算法 ， 同 时 也 发 现 图 和 表格 可 以 做 互相 的 转 
换 。 


Hyperlinks PageRank Top 20 Pages 
有 PR 
Raw Text 
Wikipedia Table 
本 Term-Doc Topic Model 
四 = Graph (LDA) Word Topics 
XML 及 
号 Word| Topic 
品 
一 > 一 
口 
a [=—=] 
Discussion Community User Community 
Table Editor Graph Detection Community Topic 


Us ed Com. Topic| Com 
je = 


图 9-12 图 和 表 的 视图 切换 
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9.7.1 属性 图 


在 Spark GraphX 中 的 Graph 其 实 是 Property Graph 属性 图 )， 也 就 是 说 图 的 每 个 项 点 和 边 
都 是 有 属性 的 ， 如 图 9-13 所 示 。 


Property Graph Vertex Table 


图 9-13 属性 图 


在 图 9-13 中 ， 构 造 了 一 个 包括 不 同人 员 “〈 用 户 ) 的 属性 图 。 顶 点 属性 包含 用 户 名 和 职业 ， 
人 员 之 间 关 系 是 用 字符 串 标注 。 顶 点 3 的 名 称 为 rxin， 是 学 生 ; 项 点 5 是 franlin， 是 一 个 教授 ， 
5 到 3 的 边 是 表明 5 是 3 的 Advisor (导师 )， 上 图 中 灰色 的 表示 的 是 相应 顶点 的 Property， 而 浅 
灰色 部 分 表示 边 的 Property， 边 和 项 点 都 是 有 ID 的 ， 对 于 顶点 而 言 有 自身 的 ID， 而 对 于 边 来 说 
有 SourceID (起 点 ) 和 DestinationID (终点 )， 即 对 于 边 而 言 会 有 两 个 ID 来 表达 从 哪个 项 点 出 
发 到 哪个 顶点 结束 ， 同 时 也 表明 了 边 的 方向 ， 这 就 是 Property Graph 的 表示 方法 。 

例如 ， 在 Vertex Table 中 ID 为 的 3 的 Property 就 是 (rxin, student)， 而 在 Edge Table 中 3 到 7 
的 边 的 Property 是 Collaborator 的 关系 ，2 到 5 是 Colleague 的 关系 。 更 为 重要 的 是 Property 
Graph 和 Table 之 间 是 可 以 相互 转换 的 ， 在 GraphX 中 所 有 操作 的 基础 是 table operator 和 graph 
operator, ， 其 继承 自 Spark 中 的 RDD， 都 是 针对 集合 进行 操作 。 

GraphX 上 的 图 是 带 有 项 点 和 边 属性 的 有 向 多 重 图 ， 并 且 扩展 了 Spark RDD。 顶 点 Vertices 
对 应 的 RDD 名 称 为 VertexRDD， VertexRDD 继承 自 RDD[(VertexId, VD) ]，RDD 的 类 型 是 
Vertexld 和 VD， 其 中 的 VD 是 顶点 属性 的 类 型 ， 也 就 是 说 VertexRDD 有 ID 和 顶点 属性 。Edges 
对 应 的 是 EdgeRDD， 属 性 有 三 个 : 源 项 点 的 ID、 目 标 项 点 的 ID、 边 属性 。EdgeRDD 继承 自 
RDD[Edge[ED]]。Graph 类 就 是 包含 该 图 的 项 点 和 边 的 类 : 
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针对 图 9-13 的 例子 ， 我 们 有 如 下 的 代码 来 构建 整个 图 : 


在 上 面 的 例子 中 ， 我 们 用 到 了 Edge case 类 。 边 有 一 个 srcld 和 dstld 分 别 对 应 于 源 和 目标 项 
点 的 标示 符 。 另 外 ，Edge 类 有 一 个 attr 成 员 用 来 存储 边 属性 。 我 们 可 以 分 别 用 graph.vertices 和 
graph.edges 成 员 将 一 个 图 解析 为 相应 的 项 点 和 边 。 


在 上 面 这 个 例子 中 ，graph.vertices 返回 一 个 VertexRDD[(String，String)]， 它 继承 于 
RDD[(VertexID，(String，String))]。 所 以 我 们 可 以 用 Scala 的 case 表达 式 解析 这 个 元 组 。 另 一 方 
面 ，graph.edges 返回 一 个 包含 Edge[String] 对 象 的 EdgeRDD。 我 们 也 可 以 用 到 case 类 的 类 型 构 


除了 属性 图 的 顶点 和 边 视图 ，GraphX 也 包含 了 一 个 三 元 组 视图 ， 三 元 视图 逻辑 上 将 项 点 和 
边 的 属性 保存 为 一 个 RDD[EdgeTriplet[VD, ED]]， 它 包含 EdgeTriplet 类 的 实例 。 可 以 通过 下 面 的 
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SQL 表达 式 表示 这 个 连接 。 


9-14 描述 了 三 元 组 视图 与 顶点 和 边 的 关系 。 


Vertices: & Edges: Triplets: 


9-14 三 元 组 视图 


EdgeTriplet 类 继承 于 Edge 类 ， 并 且 加 入 了 srcAttr 和 dstAttr 成 员 ， 这 两 个 成 员 分 别 包含 源 
和 目的 的 属性 。 我 们 可 以 用 一 个 三 元 组 视图 泻 染 字符 串 集合 来 描述 用 户 之 间 的 关系 。 


最 后 还 有 一 点 ， 属 性 图 通过 vertex(VD) 和 edge(ED) 类 型 参数 化 ， 这 些 类 型 是 分 别 与 每 个 项 点 
和 边 相 关联 的 对 象 的 类 型 。 在 某 些 情况 下 ， 在 相同 的 图 形 中 ， 可 能 希望 项 点 拥有 不 同 的 属性 类 
型 。 这 可 以 通过 继承 完成 。 例 如 ， 将 用 户 和 产品 建 模 成 一 个 二 分 图 ， 我 们 可 以 用 如 下 方式 : 


9.7.2 图 操作 符 


正如 RDD 有 基本 的 操作 map、filter 和 reduceByKey 一 样 ， 属 性 图 也 有 基本 的 集合 操作 。 核 
心 操作 是 定义 在 Graph 中 ， 便 捷 操 作 定义 在 GraphOps 中 。 然 而 ， 因为 有 Scala 的 隐 式 转换 ， 定 
义 在 GraphOps 中 的 操作 可 以 作为 Graph 的 成 员 自 动 使 用 。 例 如 ， 我 们 可 以 通过 下 面 的 方式 计算 
每 个 项 点 的 入 度 〈 定 义 在 GraphOps 中 ): 
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区 分 核心 图 操作 和 GraphOps 的 原因 是 为 了 在 将 来 支持 不 同 的 图 表示 。 每 个 图 表示 都 必须 提 


供 核心 操作 的 实现 ， 并 重用 很 多 定义 在 GraphOps 中 的 有 用 操作 。 下 面 汇总 了 Graph 和 GraphOps 
中 的 操作 : 
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9.7.3 ”属性 操作 


与 RDD 的 map 操作 一 样 ， 属 性 图 包含 下 面 的 操作 : 


每 个 操作 都 产生 一 个 新 的 图 ， 这 个 新 的 图 包含 map 操作 后 的 顶点 或 边 的 属性 。 需 要 提醒 读 
者 注意 的 是 ， 在 每 次 操作 下 图 结构 都 不 受 影 响 。 这 个 重要 特征 是 允许 新 图 形 重用 原 有 图 形 的 结构 
索引 〈indices)。 下 面 的 两 行 代码 在 逻辑 上 是 等 价 的 ， 但 是 第 一 个 不 保存 结构 索引 ， 所 以 不 会 从 
GraphX 系统 优化 中 受益 。 


另 一 种 方法 是 用 mapVertices 保存 索引 : 


9.7.4 ”结构 操作 
GraphX 支持 一 些 简 单 的 结构 性 操作 。 下 面 是 基本 的 结构 性 操作 列表 。 
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Teverse 操作 返回 一 个 新 的 图 ， 这 个 图 的 边 的 方向 都 是 反 转 的 。subgraph 操作 利用 项 点 和 边 
的 谓词 predicates)， 返 回 的 图 仅仅 包含 满足 顶点 谓词 的 顶点 、 满 足 边 谓词 的 边 以 及 满足 顶点 谓 
词 的 连接 项 点 (connect vertices)。subgraph 操作 可 以 用 于 很 多 场景 ， 如 获取 感 兴趣 的 项 点 和 边 组 
成 的 图 ， 或 者 清除 一 个 图 的 断 链 接 (broken links)。 下 面 的 例子 删除 了 断 链接 : 


mask 操作 构造 一 个 子 图 ， 这 个 子 图 只 包含 输入 参数 〈 图 ) 中 包含 的 顶点 和 边 〈 类 似 两 个 图 
的 交集 操作 )。 这 个 操作 可 以 和 subgraph 操作 相 结合 ， 基 于 另外 一 个 相关 图 的 特征 去 约束 一 个 
图 。 例 如 : 


groupEdges 操作 合并 多 个 图 中 的 并 行 边 〈 即 : 顶点 对 之 间 重 复 的 边 )。 在 大 量 的 应 用 程序 
中 ， 并 行 的 边 可 以 合并 (它们 的 权重 合并 ) 为 一 条 边 从 而 降低 图 的 大 小 。 


9.7.5 关联 (join) 操作 


在 许多 情况 下 ， 有 必要 将 外 部 数据 加 入 到 图 中 。 例 如 ， 我 们 可 能 有 额外 的 用 户 属性 需要 合并 
到 已 有 的 图 中 ， 或 者 我 们 可 能 想 从 一 个 图 中 取出 顶点 特征 加 入 到 另外 一 个 图 中 。 这 些 任务 可 以 用 
join 操作 完成 。 下 面 列 出 的 是 主要 的 join 操作 。 


joinVertices 操作 将 输入 RDD 和 项 点 相 结合 ， 返 回 一 个 新 图 。 新 图 的 项 点 属性 是 使 用 用 户 
定义 的 map 函数 获得 的 。 在 RDD 中 没有 匹配 值 的 顶点 保留 其 原始 值 。 需 要 注意 的 是 ， 对 于 给 定 
的 顶点 ， 如 果 RDD 中 有 超过 1 个 的 匹配 值 ， 则 仅仅 使 用 其 中 的 一 个 。 建 议 使 用 下 面 的 方法 保证 
输入 RDD 的 唯一 性 。 下 面 的 方法 也 会 预 索 引 返 回 的 值 ， 用 以 加 快 后 续 的 join 操作 : 
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outerJoinVertices 与 joinVertices 类 似 ， 区 别 是 前 者 将 用 户 自 定义 的 map 函数 用 到 所 有 顶点 和 
改变 顶点 属性 类 型 。 这 是 因为 并 不 是 所 有 项 点 在 RDD 中 拥有 匹配 的 值 。map 函数 需要 一 个 
option 类 型 。 比 如 : 


9.7.6 ”聚合 操作 


图 分 析 任务 的 一 个 关键 步骤 是 汇总 每 个 顶点 的 临 接点 的 信息 。 例 如 : 我 们 可 能 想 知道 每 个 用 
户 的 追随 者 的 数量 或 者 每 个 用 户 的 追随 者 的 平均 年 龄 。 许 多 迭代 图 算法 〈 如 PageRank、 最 短路 
径 、 连 通体 ) 多 次 聚合 相 邻 顶点 的 属性 。 为 了 提高 性 能 ， 主 要 的 聚合 操作 从 
graph.mapReduceTriplets 改 为 了 新 的 graph.AggregateMessages。 

GraphX 中 的 核心 聚合 操作 是 aggregateMessages。 这 个 操作 将 用 户 定义 的 sendMsg 函数 应 用 
到 图 的 每 个 边 三 元 组 〈edge triplet)， 然 后 应 用 mergeMsg 函数 在 其 目的 项 点 聚合 这 些 消息 。 其 定 
义 如 下 : 


用 户 自 定义 的 sendMsg 发 送 消息 给 源 和 目的 属性 。 可 将 sendMsg 函数 看 做 map-reduce 过 程 
中 的 map 函数 。mergeMsg 函数 把 到 相同 的 顶点 的 两 个 消息 合并 为 一 个 消息 。 可 以 将 mergeMsg 
函数 看 做 map-reduce 过 程 中 的 reduce 函数 。 aggregateMessages 操作 返回 一 个 包含 每 个 顶点 的 聚 
合 消息 的 VertexRDD[Msg]。 没 有 接收 到 消息 的 顶点 不 包含 在 返回 的 VertexRDD 中 。 另 外 ， 
aggregateMessages 有 一 个 可 选 的 tripletFields 参数 ， 它 指定 : 在 EdgeContext 中 ， 哪 些 数据 被 访问 
(如 源 顶 点 属性 而 不 是 目的 顶点 属性 )。tripletsFields 可 能 的 选项 被 定义 在 TripletFields 中 。 
tripletFields 参数 可 被 用 来 指定 GraphX 只 需要 使 用 EdgeContext 上 的 一 部 分 。 例 如 ， 如 果 我 们 想 
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计算 每 个 用 户 的 追随 者 的 平均 年 龄 ， 我 们 仅仅 只 需要 源 字段 。 所 以 我 们 使 用 TripletFields.Sre 表 
示 我 们 仅仅 只 需要 源 字 段 。 在 下 面 的 例子 中 ， 我 们 用 aggregateMessages 操作 计算 每 个 用 户 的 资 
深 追 随 者 的 平均 年 龄 。 


9.7.7 计算 度 信 息 


最 一 般 的 聚合 任务 就 是 计算 顶点 的 度 ， 即 每 个 顶点 相 邻 边 的 数量 。 在 有 向 图 中 ， 经 常 需要 知 
道 顶点 的 入 度 、 出 度 以 及 总 共 的 度 。GraphOps 类 包含 一 个 操作 集合 ， 用 来 计算 每 个 顶点 的 度 。 
例如 ， 下 面 的 例子 计算 最 大 的 入 度 、 出 度 和 总 度 。 
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9.7.8 缓存 操作 


在 Spark 中 ，RDD 默认 是 不 缓存 的 。 为 了 避免 重复 计算 ， 当 需要 多 次 利用 它们 时 ， 我 们 必 
须 显 式 地 缓存 它们 。GraphX 中 的 图 也 有 相同 的 方式 。 当 利用 到 图 多 次 时 ， 确 保 首 先 执行 
Graph.cache() 方 法 。 

在 友 代 计算 中 ， 为 了 获得 最 佳 的 性 能 ， 可 能 需要 不 缓存 。 默 认 情 况 下 ， 缓 存 的 RDD 和 图 会 
一 直 保留 在 内 存 中 ， 直 到 因为 内 存 压 力 迫 使 它们 以 LRU 的 顺序 删除 。 对 于 过 代 计算 ， 前 一 次 达 
代 的 中 间 结 果 填 充 到 缓存 中 。 虽 然 它们 最 终 会 被 删除 ， 但 是 在 内 存 中 缓存 不 需要 的 数据 将 会 减 慢 
垃圾 回收 。 如 果 中 间 结 果 不 需 要 ， 不 缓存 它们 是 更 加 高 效 的 。 对 于 从 代 计 算 ， 我 们 建议 使 用 
PregelAPI， 它 可 以 正确 地 选择 不 持久 化 中 间 结 果 。 


9.7.9 图 算法 


GraphX 提供 了 一 套图 算法 工具 包 ， 方 便 用 户 对 图 进行 分 析 。 目 前 最 新 版 本 已 支持 
PageRank 、 三 角形 计数 、 最 大 连通 图 和 最 短路 径 等 图 算法 。 下 面 我 们 以 PageRank 〈 即 网 页 排 
名 ) 为 例 讲解 图 算法 。 

PageRank 又 称 网 页 级 别 ， 它 是 Google 创始 人 拉 里 。 佩 奇 和 谢 尔 盖 。 布 林 于 1997 年 构建 
早期 的 搜索 系统 原型 时 提出 的 链接 分 析 算 法 。 目 前 很 多 重要 的 链接 分 析 算 法 都 是 在 PageRank 
算法 基础 上 衍生 出 来 的 。PageRank 是 Google 用 来 标识 网 页 的 相关 性 或 重要 性 的 一 种 方法 ， 是 
Google 用 来 衡量 一 个 网 站 的 好 坏 的 唯一 标准 。 在 揉 合 了 诸如 Title 标识 和 Keywords 标识 等 所 有 
其 他 因素 之 后 ，Google 通过 PageRank 来 调整 结果 ， 使 那些 更 具 “ 等 级 / 重要 性 ”的 网 页 在 搜 
索 结果 中 排 在 前 面 ， 从 而 提高 搜索 结果 的 相关 性 和 质量 。PageRank 通过 网 络 链接 关系 来 确定 一 
个 页 面 的 等 级 。Google 把 从 A 页 面 到 B 页 面 的 链接 解释 为 A 页 面 给 B 页 面 投票 ，Google 根据 

票 来 源 〈 甚 至 是 来 源 的 来 源 ) 和 投标 目标 的 等 级 来 决定 新 的 等 级 。 简 单 来 说 ， 一 个 高 等 级 的 页 
面 可 以 使 低 等 级 页 面 的 等 级 提升 。 

在 社交 网 络 数据 集中 ， 我 们 可 以 使 用 这 个 算法 计算 每 个 用 户 的 网 页 级 别 。 在 下 面 的 例子 中 ， 

我 们 有 一 组 用 户 数据 ， 一 组 用 户 之 间 的 关系 数据 ， 计 算 过 程 如 下 : 
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在 现实 世界 中 ， 一 些 公司 正在 用 数 千 个 特征 和 数 十 亿 个 交易 来 构建 信用 卡 欺 诈 检测 模型 ， 另 
- 些 公司 正 在 向 数 百 万 用 户 智能 地 推荐 数 百 万 产品 。 这 些 都 是 大 数据 分 析 的 范畴 。 大 数据 分 析 可 
以 用 来 解决 海量 数据 、 异 构 数据 等 多 种 问题 带 来 的 数据 分 析 难 题 。 

大 数据 处 理 包含 以 下 几 个 方面 : 数据 采集 、 数 据 转 换 和 清洗 、 数 据 存储 、 数 据 检 索 、 数 据 分 
析 等 。 根 据 数据 处 理 的 不 同 阶段 ， 有 不 同 的 专业 工具 来 对 数据 进行 不 同 阶段 的 处 理 。 在 数据 转换 
部 分 ， 有 专业 的 ETL 工具 来 帮助 完成 数据 的 清洗 、 提 取 、 转 换 和 加 载 。 去 掉 无 关 的 数据 和 不 重 
要 的 数据 ， 对 数据 进行 相关 分 类 。 在 数据 存储 和 计算 部 分 的 技术 ， 有 Hadoop 等 。 在 数据 可 视 化 
部 分 ， 需 要 对 数据 的 计算 结果 进行 分 析 和 展现 。 一 般 而 言 ， 在 分 类 划分 之 后 ， 就 可 以 根据 具体 的 
分 析 需 求 选择 模式 分 析 的 技术 ， 如 路 径 分 析 、 兴 趣 关联 规则 、 聚 类 等 。 通 过 模式 分 析 ， 找 到 有 用 
的 信息 。 

大 数据 分 析 包 括 : (1) 数据 挖掘 算法 : 大 数据 分 析 的 理论 核心 就 是 数据 挖掘 算法 ， 各 种 数据 
挖掘 的 算法 基于 不 同 的 数据 类 型 和 格式 才能 更 加 科学 地 呈现 出 数据 本 身 的 特点 ， 也 正 是 因为 这 些 
被 全 世界 统计 学 家 所 公认 的 各 种 统计 方法 才能 深入 数据 内 部 ， 挖 掘 出 公认 的 价值 。 另 外 一 个 方面 
也 是 因为 有 这 些 数据 挖掘 的 算法 才能 更 快速 地 处 理 大 数据 ， 如 果 一 个 算法 得 花 上 好 几 年 才能 得 出 
结论 ， 那 大 数据 的 价值 也 就 无 从 说 起 了 。(2) 大 数据 预测 性 分 析 : 大 数据 分 析 最 终 要 应 用 的 领域 
之 一 就 是 预测 性 分 析 ， 从 大 数据 中 挖掘 出 特点 ， 通 过 科学 的 建立 模型 ， 之 后 便 可 以 通过 模型 带 入 
新 的 数据 ， 从 而 预测 未 来 的 数据 。(3) 可 视 化 分 析 : 大 数据 分 析 的 使 用 者 有 大 数据 分 析 专 家 
同时 还 有 普通 用 户 ， 但 是 他 们 二 者 对 于 大 数据 分 析 最 基本 的 要 求 都 是 能 够 可 视 化 分 析 ， 因 为 可 
视 化 分 析 能 够 直观 地 呈现 大 数据 特点 ， 同 时 能 够 非常 容易 被 读者 所 接受 ， 就 如 同 看 图 说 话 一 样 
简单 明了 。 

还 有 一 点 ， 大 数据 分 析 系 统 的 体系 架构 正 发 生 着 根本 性 的 变革 。 过 去 10 年 ， 大 多 由 IT 部 门 
主导 大 数据 分 析 项 目 ， 这 些 项 目 高 度 可 控 、 中 心 化 、IT 化 。 现 在 ， 大 量 的 商业 用 户 迫 切 要 求 进 
行 交 互 式 分 析 ， 和 希望 通过 深度 分 析 获 取 数据 洞察 力 ， 而 他 们 只 有 非常 有 限 的 IT 或 数据 科学 技 
能 。 一 方面 IT 部 门 需要 满足 越 来 越 多 的 Data Discovery 需求 ， 另 一 方面 他 们 又 不 想 牺牲 可 控 
性 。 无 论 是 IT 部 门 主导 的 数据 分 析 ， 还 是 业务 部 门 主导 的 ， 大 数据 分 析 分 为 以 下 几 步 : 


1. 确定 分 析 目 标 
这 些 分 析 目标 可 能 是 由 一 些 问题 组 成 。 比 如 : 一 个 企业 的 产品 销路 不 好 。 那 么 ， 你 可 能 问 : 
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“价格 太 高 了 ? ” “竞争 对 手 的 产品 有 无 独到 之 处 ? ” “竞争 对 手 的 产品 的 目标 客户 是 谁 ? ” 
等 等 。 大 数据 采集 依赖 于 这 些 问题 。 比 如 ， 你 可 能 需要 采集 客户 的 反馈 信息 ， 竞 争 对 手 的 产品 规 
格 ， 等 等 。 总 之 ， 我 们 首先 要 确定 一 个 清晰 的 、 可 评估 的 目标 。 


2. 设置 评估 维度 

在 数据 采集 之 前 一 定 要 确定 评估 参数 。 常 见 的 评估 参数 有 : 时 间 维 度 ， 评 估 因 子 等 。 

3. 采集 数据 

原始 数据 来 自 不 同 的 数据 源 。 有 一 个 容易 让 技术 人 员 忽 视 的 因素 是 数据 采集 的 预算 。 比 如 ， 
银行 可 能 需要 运营 商 的 消费 数据 ， 从 而 从 一 个 维度 来 评估 信用 卡 申请 人 员 的 消费 金额 和 信用 信 
息 。 这 样 的 数据 往往 需要 外 部 采购 来 获得 。 

4. 数据 清洗 


垃圾 数据 必然 影响 分 析 的 质量 ， 所 以 ， 我 们 需要 清洗 数据 。 一 般 情况 下 ， 这 需要 一 个 自动 化 
的 业务 流程 来 清洗 。 


5. 数据 分 析 
有 不 同 的 数据 分 析 技 术 ， 如 : 探索 性 数据 分 析 技 术 、 描 述 统计 法 、 数 据 可 视 化 等 。 


1 ,| 数据 科学 


在 大 数据 领域 ， 我 们 可 以 把 众多 的 大 数据 工具 (如 : Spark、Hadoop 等 ) 比 作 厨 房 工 具 ， 而 
数据 本 身 可 以 比 作 原 材料 。 那 么 ， 只 有 工具 和 好 的 原材料 未 必 能 做 出 来 一 个 好 菜 ， 这 其 中 缺少 一 
个 优秀 的 厨师 。 数 据 科 学 家 就 是 大 数据 领域 的 厨师 。 数 据 科 学 就 是 利用 大 数据 工具 将 原始 数据 变 
成 对 不 懂 数 据 科学 的 普通 人 有 价值 的 东西 。 数 据 科 学 界 有 几 个 常识 ， 供 大 家 参考 : 


(1) 成 功 的 大 数据 分 析 中 绝 大 部 分 工作 是 数据 预 处 理 〈 数 据 整合 )。 数 据 是 在 不 同 的 系统 
上 ， 本 身 还 可 能 是 混乱 的 ， 在 让 数据 产生 价值 之 前 ， 必 须 对 数据 进行 清洗 、 转 换 、 融 合 、 存 储 和 
管理 。 我 们 有 时 需要 花 大 量 的 时 间 在 特征 提取 和 选择 上 。 比 如 ， 在 信用 卡 欺诈 上 ， 数 据 科学 家 需 
要 从 许多 可 能 的 特征 中 进行 选择 。 在 将 这 些 特征 转换 成 适用 于 机 器 学 习 算法 的 向 量 时 ， 每 个 特征 
可 能 会 有 不 同 的 问题 。 

(2) 迭代 与 数据 科学 紧密 相关 。 建 模 和 分 析 经 常 要 对 一 个 数据 集 进行 多 次 遍历 。 数 据 科学 
家 本 身 的 工作 流程 也 涉及 迭代 ， 比 如 : 数据 科学 家 往往 很 难 在 第 一 次 就 得 到 理想 的 结果 。 选 择 正 
确 的 特征 ， 挑 选 合 适 的 算法 ， 运 行 恰当 的 测试 ， 所 有 这 些 工 作 都 需要 反复 试验 。 

(3) 构建 好 的 模型 只 是 成 功 的 一 步 ， 而 不 是 全 部 。 模 型 往往 需要 定期 重建 。 


在 大 数据 分 析 场 景 中 ， 我 们 要 区 分 试验 环境 和 生产 环境 。 对 于 试验 环境 ， 数 据 科学 家 进行 探 
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索性 分 析 ， 他 们 用 各 种 特征 做 试验 ， 用 辅助 数据 源 来 增强 数据 ， 他 们 试验 各 种 算法 ， 希 望 从 中 找 
到 一 两 个 有 效 算法 。 而 对 于 生产 环境 ， 数 据 科 学 家 进行 操作 式 分 析 。 他 们 把 模型 打包 成 服务 ， 这 
些 服务 可 以 作为 决策 依据 。 他 们 跟踪 模型 随时 间 的 表现 ， 精 心 调整 模型 。 值 得 指出 的 是 ，Spark 
技术 在 探索 型 分 析 系 统 和 操作 型 分 析 系 统 之 间 措 起 一 座 桥 梁 。 


19.1.1 
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探索 性 数据 分 析 (Exploratory Data Analysis， 简 称 EDA) 是 指 对 已 有 的 原始 数据 在 尽量 少 的 
先 验 假定 下 进行 探索 ， 通 过 作 图 、 制 表 、 方 程 拟 合 、 计 算 特 征 量 等 手段 探索 数据 的 结构 和 规律 的 
-种 数据 分 析 方法 。 特 别 是 当 我 们 对 这 些 数据 中 的 信息 没有 足够 的 经 验 ， 不 知道 该 用 何 种 传统 统 
计 方 法 进行 分 析 时 ， 探 索性 数据 分 析 就 会 非常 有 效 。 探 索性 数据 分 析 在 20 世纪 六 十 年 代 被 提 
出 ， 其 方法 由 美国 著名 统计 学 家 约翰 。 图 基 〈John Tukey) 命名 。 

EDA 的 出 现 主要 是 在 对 数据 进行 初步 分 析 时 ， 往 往 还 无 法 进行 常规 的 统计 分 析 。 这 时 候 ， 
如 果 分 析 者 先 对 数据 进行 探索 性 分 析 ， 辨 析 数 据 的 模式 与 特点 ， 并 把 它们 有 序 地 发 掘 出 来 ， 就 能 
够 灵活 地 选择 和 调整 合适 的 分 析 模 型 ， 并 揭示 数据 相对 于 常见 模型 的 种 种 偏离 。 在 此 基础 上 再 采 
用 以 显著 性 检验 和 置信 区 间 估计 为 主 的 统计 分 析 技 术 ， 就 可 以 科学 地 评估 所 观察 到 的 模式 或 效应 
的 具体 情况 。 概 括 起 来 说 ， 分 析 数 据 可 以 分 为 探索 和 验证 两 个 阶段 。 探 索 阶段 强调 灵活 探求 线索 
和 证 据 ， 发 现 数据 中 隐藏 的 有 价值 的 信息 ， 而 验证 阶段 则 着 重 评估 这 些 证 据 ， 相 对 精确 地 研究 一 
些 具体 情况 。 在 验证 阶段 ， 常 用 的 方法 是 传统 的 统计 学 方法 ， 在 探索 阶段 ， 主 要 的 方法 就 是 
EDA， 下 面 我 们 重点 对 EDA 做 进一步 的 说 明 。 

EDA 的 特点 有 三 个 : 


在 分 析 思 路 上 让 数据 说 话 。 传 统统 计 方 法 通常 是 先 假定 一 个 模型 ， 例 如 数据 服从 某 个 
分 布 (特别 常见 的 是 正 态 分 布 ) ， 然 后 使 用 适合 此 模型 的 方法 进行 拟 合 、 分 析 及 预 
测 。 但 实际 上 ， 多 数 数 据 并 不 能 保证 满足 假定 的 理论 分 布 。 因 此 ， 传 统 方法 的 统计 结 
果 常 常 并 不 令 人 满意 ， 使 用 上 受到 很 大 的 局 限 。EDA 则 可 以 从 原始 数据 出 发 ， 深 入 探 
索 数 据 的 内 在 规律 ， 而 不 是 从 某 种 假定 出 发 ， 套 用 理论 结论 ， 拘 泥 于 模型 的 假设 。 
EDA 分 析 方法 灵活 ， 而 不 是 拘泥 于 传统 的 统计 方法 。 传 统 的 统计 方法 以 概率 论 为 基 
础 ， 使 用 有 严格 理论 依据 的 假设 检验 、 置 信 区 间 等 处 理工 具 。EDA 处 理 数 据 的 方式 则 
灵活 多 样 ， 分 析 方 法 的 选择 完全 从 数据 出 发 ， 灵 活 对 待 ， 灵 活 处 理 ， 什 么 方法 可 以 达 
到 探索 和 发 现 的 目的 就 使 用 什么 方法 。 这 里 特别 强调 的 是 EDA 更 看 重 的 是 方法 的 稳健 
性 、 耐 抗 性 ， 而 不 刻意 追求 概率 意义 上 的 精确 性 。 

EDA 分 析 工 具 简 单 直观 ， 更 易于 普及 。 传 统 的 统计 方法 都 比较 抽象 和 深奥 ， 一般人 难 
于 掌握 ，EDA 则 更 强调 直观 及 数据 可 视 化 ， 更 强调 方法 的 多 样 性 及 灵活 性 ， 使 分 析 者 
能 一 目 了 然 地 看 出 数据 中 隐 含 的 有 价值 的 信息 ， 显 示 出 其 遵循 的 普遍 规律 以 及 与 众 不 
同 的 突出 特点 ， 促 进发 现 规律 ， 得 到 启迪 ， 满 足 分 析 者 的 多 方面 要 求 ， 这 也 是 EDA 对 
于 数据 分 析 的 主要 贡献 。 
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10.1.2 ”描述 统计 


描述 统计 用 来 描绘 (describe) 或 总 结 (summarize〉 所 采集 到 的 数据 ， 通 过 图 表 形 式 对 所 收 
集 的 数据 进行 加 工 处 理 和 显示 ， 进 而 通过 综合 概括 与 分 析 得 出 反映 客观 现象 的 规律 性 数量 特征 。 
常用 的 工具 有 : 平均 数 (Mean)、 中 位 数 (Median )、 众 数 〈Mode)、 几 何平 均 数 、 全 距 
(range )、 平 均 差 (average deviation )、 标 准 差 (standard deviation )、 相 对 差 、 四 分 差 
(quartiledeviation ) 等 。 


10.1.3 ”数据 可 视 化 


有 时 ， 我 们 辛 辛 苦 苦 分 析 一 堆 大 数据 ， 得 到 很 多 报表 ， 但 是 客户 没 看 懂 ! 如 果 你 正 着 手 于 从 
数据 中 洞察 出 有 用 信息 ， 那 你 需要 “数据 可 视 化 ” 俗话 说 ， 一 图 胜 千言 。 良 好 的 可 视 化 帮助 用 
户 获取 数据 的 多 维度 透视 视图 。 

数据 可 视 化 是 指 将 大 型 数据 集中 的 数据 以 图 形 、 图 像 形式 表示 ， 并 利用 数据 分 析 和 开发 工具 
发 现 其 中 未 知 信息 的 处 理 过 程 。 数 据 可 视 化 工具 基本 以 表格 、 图 形 〈chart) 等 可 视 化 元 素 为 主 ， 
数据 可 进行 过 滤 、 钻 取 、 数 据 联 动 、 跳 转 、 高 亮 等 分 析 手段 做 动态 分 析 。 可 视 化 工具 可 以 提供 多 
样 的 数据 展现 形式 、 多 样 的 图 形 泻 染 形式 、 丰 富 的 人 机 交互 方式 ， 支 持 商业 逻辑 的 动态 脚本 引擎 
等 等 。 

基于 Reporting 去 指导 业务 的 需求 虽然 还 存在 ， 目 前 最 显著 的 改变 却 是 如 何 二 者 兼 之， 尤其 
是 满足 新 的 Business-user-driven 〈 业 务 用 户 驱 动 ) 的 需求 。 这 些 需 求 不 再 使 用 传统 的 、IT-centric 
的 企业 级 平台 ， 转 而 采用 去 中 心 化 的 Data Discovery 部 署 ， 如 今 这 种 部 署 在 企业 里 随处 可 见 。 
Gartner 估算 ， 超 过 1/2 的 购买 需求 来 自 于 Data-discovery-driven 〈 数 据 发 现 驱动 )。 这 种 去 中 心 化 
模型 让 更 多 商业 用 户 获取 到 了 数据 分 析 能 力 ， 同 时 也 产生 了 对 可 控 的 Data Discovery 方法 的 需 
求 。 这 是 一 个 持续 了 多 年 的 转变 。IT-centric BI 平台 正 越 来 越 多 地 被 Business-user-driven 和 交互 
式 分 析 项 目 替 换 。 这 个 转变 的 目标 ， 是 让 更 大 范围 的 用 户 和 更 多 的 场景 能 获取 到 数据 分 析 能 力 。 

随 着 企业 通过 可 管控 的 Data Discovery 方法 建设 BI 平台 ， 很 多 商业 用 户 以 Self-service( 自 
服务 ) 的 模式 去 访问 IT 部 门 把 控 的 数据 源 。 当 前 的 趋势 是 ， 更 大 范围 地 接 入 用 户 尤其 是 非 传统 
BI 用 户 ， 以 扩展 数据 分 析 的 应 用 尤其 是 通过 深度 分 析 产 生 洞察 。 很 多 数据 分 析 整 合 来 自 内 部 和 
外 部 的 多 结构 化 数据 。 对 BI 厂商 来 说 ， 整 合 线 上 线 下 的 、 多 结构 化 的 、 流 式 的 数据 ， 已 经 成 为 
很 重要 的 功能 。 还 要 支持 社交 和 网 络 分 析 、 情 绪 分 析 、 机 器 学 习 。 新 的 挑战 和 机 会 来 自 于 将 这 些 
多 源 数 据 融合 并 管理 起 来 ， 以 产生 商业 价值 。 

本 节 将 聚焦 在 一 些 通用 的 数据 库 可 视 化 技术 ， 帮 助 您 打造 可 视 化 层 。 下 面 是 一 些 基本 原则 ; 

@ ”确保 可 视 化 层 显 示 的 数据 都 是 从 最 后 的 汇总 输出 表 中 取得 的 数据 。 这 么 做 可 以 避免 直 

接 读 取 整 个 原始 数据 。 这 不 仅 最 大 限度 地 减少 数据 传输 ， 而 且 当 用 户 在 线 查看 报告 时 
还 有 助 于 避免 性 能 卡 顿 问题 。 
@ ”充分 利用 可 视 化 工具 的 缓存 。 缓 存 可 以 对 可 视 化 层 的 整体 性 能 有 提升 。 
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@ ”物化 视图 是 可 以 提高 性 能 的 另 一 个 重要 的 技术 。 

@ ”大 部 分 可 视 化 工具 允许 通过 增加 线程 数 来 提高 请 求 响 应 的 速度 。 如 果 资 源 足够 、 访 问 
量 较 大 时 ， 这 是 提高 系统 性 能 的 好 办 法 。 

@ ”尽量 提前 将 数据 进行 预 处 理 ， 如 果 一 些 数据 必须 在 运行 时 计算 ， 则 将 运行 时 计算 简化 
到 最 小 。 

@ ”可 视 化 工具 可 以 按照 各 种 各 样 的 展示 方法 对 应 不 同 的 读 取 策略 ， 这 包括: 离线 模式 或 
者 在 线 连 接 模式 。 每 种 服务 模式 都 是 针对 不 同 场景 设计 的 。 


近年 来 ， 随 着 大 数据 时 代 的 来 临 ， 数 据 可 视 化 产品 已 经 不 再 满足 于 使 用 传统 的 数据 可 视 化 工 
具 来 对 数据 仓库 中 的 数据 抽取 、 归 纳 并 简单 地 展现 。 大 数据 可 视 化 产品 必须 快速 地 收集 、 筛 选 、 
分 析 、 归 纳 、 展 现 决策 者 所 需要 的 信息 ， 并 根据 新 增 的 数据 进行 实时 更 新 。 因 此 ， 在 大 数据 时 
代 ， 数 据 可 视 化 工具 必须 具有 以 下 特性 : 


@ ”实时 性 : 数据 可 视 化 工具 必须 适应 大 数据 时 代数 据 量 的 爆炸 式 增长 需求 ， 必 须 快 速 地 
收集 分 析 数据 ， 并 对 数据 信息 进行 实时 更 新 

@ 简单 操作 : 数据 可 视 化 工具 满足 快速 开发 、 易 于 操作 的 特性 ， 能 满足 互联 网 时 代 信 息 
多 变 的 特点 ; 

@ 更 半 富 的 展现 : 数据 可 视 化 工具 需要 具有 更 丰富 的 展现 方式 ， 能 充分 满足 数据 展现 的 
多 维度 要 求 。 


企业 获取 数据 可 视 化 功能 主要 通过 编程 和 非 编程 两 类 工具 实现 。 主 流 编程 工具 包括 以 下 三 种 
类 型 ， 从 艺术 的 角度 创作 的 数据 可 视 化 ， 比 较 典 型 的 工具 是 Processingjs， 它 是 为 艺术 家 提供 的 
编程 语言 。 从 统计 和 数据 处 理 的 角度 ，R 语言 是 一 款 典 型 的 工具 ， 它 本 身 既 可 以 做 数据 分 析 ， 又 
可 以 做 图 形 处 理 。 介 于 两 者 之 间 的 工具 ， 既 要 兼顾 数据 处 理 ， 又 要 兼顾 展现 效果 ，D3.js 是 一 个 
不 错 的 选择 。 像 D3.js 这 种 基于 JavaScript 的 数据 可 视 化 工具 更 适合 在 互联 网 上 互动 地 展示 数 
据 。D3.js 是 数据 驱动 文件 (Data-Driven Documents) 的 缩写 ， 它 通过 使 用 HTML/CSS 和 SVG 
来 演 染 精彩 的 图 表 和 分 析 图 。D3 对 网 页 标准 的 强调 足以 满足 使 其 在 所 有 主流 浏览 器 上 都 能 使 用 
的 可 能 性 ， 它 可 以 将 视觉 效果 很 棒 的 组 件 和 数据 驱动 方法 结合 在 一 起 。 

非 编程 类 工具 除了 微软 公司 的 Excel 之 外 ， 还 有 : 


@ FusionCharts : 不 仅 有 漂亮 的 图 表 ， 还 能 制作 出 生动 的 动画 、 巧 妙 的 设计 和 丰富 的 交互 
性 。 它 在 PC 端 、Mac、iPad、iPhone 和 Android 平台 都 可 兼容 ， 具 有 很 好 的 用 户 体验 
一 致 性 ， 同 时 也 适用 于 所 有 的 网 页 和 移动 应 用 。FusionCharts 套件 提供 了 超过 90 种 图 
表 和 图 示 ， 例 如 : 漏斗 图 、 热 点 地 图 、 放 缩 线 图 和 多 轴 图 等 。 

@ Dygraphs: 这 是 一 款 快捷 灵活 的 开源 JavaScript 图 表 库 。 它 具有 极 强 的 交互 性 ， 比 如 缩 
放 、 平 移 和 和 鼠标 悬 停 等 都 是 默认 动作 。Dygraphs 也 是 高 度 兼容 的 ， 所 有 的 主流 浏览 器 
都 可 正常 运行 。 你 还 可 以 在 手机 和 平板 设备 上 使 用 双 指 缩放 ! 

@ ”Datawrapper: 让 你 只 需 4 步 就 可 以 创建 出 图 表 和 地 图 。 这 款 工具 帮 你 将 数据 可 视 化 的 
时 间 从 几 小 时 减少 到 了 几 分 钟 。 它 的 操作 非常 简单 ， 你 只 需 上 传 数据 ， 选 择 一 个 图 表 


242 


第 10 章 大 数据 分 析 


或 地 图 ， 然 后 点 击发 布 就 可 以 了 。Datawrapper 是 为 你 的 需求 定制 化 而 存在 的 ， 版 式 和 
视觉 效果 都 可 以 按照 你 的 样式 规范 而 调整 。 

Leaflet: 这 是 为 移动 端 交互 地 图 所 做 的 开源 JavaScript 库 ， 其 中 包含 了 大 部 分 在 线 地 图 
开发 人 员 都 需要 的 特征 。Leaflet 被 设计 为 一 个 简单 易 用 、 性 能 优良 的 工具 。 归 功 于 
HTML5 和 CSS3， 它 得 以 支持 所 有 主流 电脑 和 移动 平台 。 它 还 有 大 量 可 供 选 择 的 插件 
能 安装 。 

Tableau Public: 是 一 款 操作 简便 的 app， 它 可 以 轻松 帮 你 创建 可 视 化 作品 。 只 需 打 开 数 
据 ， 用 Tableau 桌面 版 来 进一步 探索 。 然 后 ， 把 可 视 化 内 容 存 储 在 你 Tableau Public 在 
线 文件 空间 ， 最 后 ， 将 他 们 放 进 网 站 或 Blog 即 可 。 

Google Charts: 能 为 你 的 网 站 提供 完美 的 数据 可 视 化 处 理 。 从 简单 的 折线 图 到 复杂 的 分 
级 树 形 图 ， 它 的 图 表 库 里 提供 了 海量 的 模版 可 供 选择 。 所 有 的 图 表 样式 都 是 使 用 数据 
库 表 类 (DataTable class ) 来 填充 数据 的 ， 这 意味 着 你 可 以 在 挑选 表现 效果 的 时 候 轻 松 
转换 表格 类 型 。 

Raw: 是 一 款 开放 的 Web app， 可 以 按 需 创作 矢量 图 形 可 视 化 作品 。 它 是 使 用 LGPL 许 
可 的 定制 项 目 ， 允 许 随意 下 载 并 修改 。 但 是 Raw 只 是 Web app， 你 所 上 传 的 数据 只 能 
用 网 页 浏览 器 处 理 ， 因 此 没有 实质 性 服务 器 端 数据 交互 。 你 可 将 可 视 化 作品 导出 为 入 
量 图 形 (SVG ) 格式 或 者 PNG 格式。 

iCharts: 是 基于 云端 的 趋势 预测 视觉 分 析 平台 ， 它 可 以 快速 地 将 复杂 的 商业 信息 、 大 
规模 调查 数据 和 动态 数据 研究 的 结果 可 视 化 。 它 非常 得 快速 简便 ， 但 却 可 以 根据 实时 
数据 创造 出 富有 冲击 力 的 视觉 智能 图 像 ， 并 且 可 以 为 你 带 来 全 方位 信息 聚合 和 信息 对 
二 s 

HighCharts: 通过 HighCharts 你 可 以 为 网 站 项 目 制作 交互 式 图 表 。 它 的 用 户 非常 广泛 
(全 世界 最 大 的 100 家 公司 里 面 有 61 家 以 及 成 千 上 万 的 开发 人 员 都 在 使 用 ) 。 
HighCharts 是 建立 在 HTML 5 上 的 ， 在 现代 的 浏览 器 包括 移动 、 平 板 设备 上 运行 ， 也 
支持 过 时 的 I 浏览 器 (IE 6 之 后 的 都 可 以 ) 。 它 同时 也 是 动态 的 ， 你 可 以 自由 添加 、 
移 除 、 修 改 数据 列 (Series ) 和 关键 点 ( Points ) 。 这 款 app 支持 多 种 类 型 的 图 表 : 折 
现 图 、 样 条 曲线 、 面 积 图 、 曲 线 面 积 图 、 柱 状 图 、 条 状 图 、 饼 状 图 和 散 点 图 等 等 。 
InstantAtlas: InstantAtlas 可 以 创建 交互 式 动态 分 配 图 报告 ， 并 结合 统计 数据 和 地 图 数 
据 来 优化 数据 可 视 化 效果 。 

Visually: 是 一 个 综合 图 库 和 信息 图 表 生成 器 。 它 的 工具 很 简单 ， 却 可 创造 出 不 错 的 数 
据 展示 作品 。 

Polymaps: 是 一 个 可 以 同时 使 用 位 图 和 SVG 和 拓 量 地 图 的 JavaScript 库 。 它 为 地 图 提供 
的 多 级 缩放 数据 集 ， 并 且 可 支持 矢量 数据 的 多 种 视觉 表现 形式 。 
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预测 分 析 就 是 挖掘 采集 来 的 海量 数据 ， 从 中 预测 未 来 的 行为 模式 和 趋势 。 金 融 行业 给 每 个 客 
户 的 信用 打分 (credit score) 就 是 预测 分 析 的 一 个 使 用 场景 。 除 了 金融 行业 ， 其 他 行业 的 预测 产 
品 也 非常 火热 。 比 如 : 2015 年 IBM 购买 了 一 家 专门 从 事 预 测 分 析 的 医疗 数据 公司 Explorys。 

预测 分 析 的 一 个 最 经 典 的 例子 就 是 英国 科学 家 高 尔 顿 在 19 世纪 发 现 的 趋 均 数 回归 
(regression to the mean)。 他 按 大 小 将 总 豆 种 子 分开 种 植 ， 他 发 现 ， 虽 然 下 一 代 的 种 子 往 往 和 父 
辈 很 相像 ， 但 总 体 来 看 ， 他 们 的 平均 大 小 更 接近 平均 水 平 。 一 个 异常 的 结果 后 将 会 紧 跟着 出 现 一 
个 预期 接近 平均 值 的 结果 ， 这 被 称 为 “均值 回归 ”。 如 果 这 种 均值 回归 不 存在 的 话 ， 那 么 大 的 豌 
豆 就 会 繁殖 出 更 大 的 殉 豆 ， 小 的 吏 豆 就 会 繁殖 出 更 小 的 吏 豆 ， 如 此 这 样 ， 这 个 世界 就 会 只 有 侏儒 
和 巨人 。 大 自然 会 使 每 一 代 变 得 愈 发 畸形 ， 最 终 达 到 我 们 无 法 想象 的 极端 。 

趋 均 数 回归 就 是 早期 的 预测 模型 ， 它 意味 着 知道 了 一 个 值 就 大 体 知道 了 另 一 个 值 。 如 果 知 道 
- 颗 新 统 豆 的 大 小 ， 根 据 这 种 关联 关系 ,我们 就 能 更 准确 的 估计 其 后 代 的 大 小 。 经 过 一 百 多 年 统 
计 学 的 发 展 ， 随 着 现代 机 器 学 习 的 出 现 ， 我 们 依旧 把 以 “ 某 些 值 ”预测 “另外 某 个 值 ”的 思想 称 
为 回归 ， 即 使 它 已 经 和 “向 均 数 回归 ”没有 任何 关系 。“ 回 归 ” 是 预测 一 个 数值 型 数量 ， 比 如 : 
大 小 、 收 入 等 。 而 “分 类 ”是 预测 标签 〈label)， 即 类 别 。 比 如 判断 某 个 邮件 为 垃圾 邮件 。 回 归 
和 分 类 都 是 通过 一 个 或 更 多 值 预 测 另 一 个 或 更 多 ) 值 。 为 了 能 够 做 出 预测 ， 两 者 都 需要 从 一 组 
输入 和 输出 中 学 习 预 测 规则 。 在 学 习 过 程 中 ， 需 要 告诉 它们 问题 以 及 问题 的 答案 ， 它 们 都 属于 监 
督学 习 的 范畴 。 


10.2.1 ”预测 分 析 实 例 


预测 分 析 是 运用 各 种 定性 和 定量 的 分 析 理论 与 方法 ， 对 事物 未 来 发 展 的 趋势 和 水 平 进行 判断 
和 推测 的 一 种 活动 。 预 测 分 析 包 含 了 多 种 模型 ， 其 中 最 常用 的 模型 是 预测 模型 。 我 们 来 看 一 个 实 
际 的 例子 。 随 着 互联 网 的 发 展 ， 人 们 越 来 越 习 惯 于 在 网 上 搜索 电影 信息 。 谷 歌 发 现 ， 电 影 相 关 的 
搜索 量 与 票房 收入 之 间 存 在 很 强 的 关联 。 据 此 ， 谷 歌 公 布 了 电影 票房 预测 模型 ， 这 个 预测 模型 是 
大 数据 分 析 技术 在 电影 行业 的 一 个 重要 应 用 。 该 模型 能 够 提前 一 个 月 预测 电影 上 映 首 周 的 票房 收 
入 ， 准 确 度 高 达 94%。 谷 歌 票房 预测 模型 的 基础 是 将 电影 相关 的 搜索 量 与 票房 收入 的 关联 。 谷 
歌 采 用 了 如 下 三 类 指标 : 

@ ”电影 预告 片 的 搜索 量 

@ ”同系 列 电影 前 几 部 的 票房 表现 

”档期 的 季节 性 特征 

其 中 每 类 指标 又 包含 了 多 项 类 内 指标 。 在 获取 到 每 部 电影 的 这 些 指标 后 ， 谷 歌 构建 了 一 个 线 
性 回归 模型 (linear regression model) 来 建立 这 些 指标 和 票房 收入 的 关系 。 图 10-1 展示 了 模型 的 
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效果 ， 横 轴 是 预告 片 搜 索 量 ， 纵 轴 是 首 周 票房 收入 ， 灰 色 圆 点 代表 了 实际 的 票房 收入 ， 红 色 方块 
代表 了 预测 的 票房 收入 。 可 以 看 到 ， 预 测 结果 与 实际 结果 非常 接近 。 


Opening Weekend Gross (in SMM) 


图 10-1 提前 一 个 月 预测 票房 的 效果 


谷歌 采用 的 是 数据 分 析 中 最 简单 的 模型 之 一 : 线性 回归 模型 。 首 先 ， 线 性 模型 虽然 简单 ， 但 
已 经 达到 了 很 高 的 准确 度 94%)。 简 单 且 效 果 好 ， 是 我 们 在 实际 应 用 中 一 直 追 求 的 。 其 次 ， 简 
单 的 模型 易于 被 人 们 理解 和 分 析 。 大 数据 分 析 技 术 的 优势 正 是 能 够 从 大 量 数 据 中 挖掘 出 人 们 可 以 
理解 的 规律 ， 从 而 加 深 对 行业 的 理解 。 正 是 因为 谷歌 使 用 了 线性 预测 模型 ， 所 以 它 很 容易 对 各 项 
指标 的 影响 做 出 分 析 。 例 如 谷歌 的 报告 中 给 出 了 这 样 的 分 析 结论 :“ 距 离 电影 上 映 一 周 的 时 候 ， 
如 果 一 部 影片 比 同类 影片 多 获得 25 万 搜索 量 ， 那 么 该 片 的 首 周 票房 就 很 可 能 比 同 类 影片 高 出 
430 万 美元 ”。 对 于 电影 的 营销 来 说 ， 掌 握 各 项 指标 对 票房 收入 的 影响 ， 可 以 优化 营销 策略 ， 降 
低 营销 成 本 。 谷 歌 的 报告 中 指出 ， 用 户 一 般 会 通过 多 达 13 个 渠道 来 了 解 电影 的 信息 。 票 房 预测 
模型 的 出 现 无 疑 使 得 营销 策略 的 制定 更 加 有 效 。 票 房 预 测 模型 的 公布 ， 让 业内 人 士 再 次 见证 了 大 
数据 的 成 功 应 用 。 近 年 来 ， 大 数据 在 电影 行业 的 应 用 越 来 越 引 起 关注 ， 比 如 此 前 谷歌 利用 搜索 数 
据 预测 了 奥斯卡 获奖 者 。 

大 数据 分 析 的 本 质 ， 在 于 通过 数据 ， 更 精准 地 挖掘 用 户 的 需求 。 而 谁 能 掌握 用 户 的 需求 ， 谁 
就 可 以 引领 行业 的 发 展 。 谷 歌 的 票房 预测 模型 ， 本 质 上 也 是 通过 搜索 量 ， 挖 掘 出 用 户 对 电影 的 需 
求 有 多 大 ， 进 而 预测 出 票房 收入 。 值 得 注意 的 是 ， 谷 歌 的 模型 基于 的 只 是 宏观 的 搜索 量 的 统计 ， 
对 用 户 需 求 的 挖掘 相对 表面 。 如 何 从 搜索 数据 中 更 深 地 挖掘 用 户 的 需求 将 是 未 来 的 趋势 之 一 。 

既然 大 数据 分 析 的 核心 是 挖掘 用 户 需求 ， 所 以 一 大 核心 问题 是 : 哪些 用 户 的 需求 是 可 以 从 数 
据 中 挖掘 到 的 ? 要 知道 ， 并 不 是 任何 需求 都 可 以 被 挖掘 到 ， 或 者 说 可 以 被 精准 地 挖掘 到 。 能 够 通 
过 大 数据 分 析 挖 掘 到 的 需求 ， 一 般 是 符合 行业 经 验 的 ， 应 当 是 业内 人 士 觉得 可 以 被 挖掘 的 《有 时 
候 ， 挖 掘 出 的 需求 可 能 会 超出 行业 经 验 ， 甚 至 产生 颠覆 性 的 影响 )。 谷 歌 的 预测 模型 的 基本 假 
设 ， 是 符合 行业 直觉 的 ， 即 电影 的 搜索 量 越 大 ， 往 往 票房 收入 越 大 。 模 型 能 够 提前 一 个 月 预测 票 
房 ， 也 符合 行业 经 验 ， 正 如 谷歌 的 一 项 行业 调研 揭示 的 : 大 多 数 观众 会 在 电影 首 映 4 周 前 去 了 解 
电影 。 数 据 分 析 技术 ， 是 把 这 种 模糊 的 行业 经 验 ， 变 得 更 科学 ， 变 得 更 精准 。 而 这 一 过 程 ， 很 可 
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能 会 深层 次 地 改变 电影 行业 。 


10.2.2 ”回归 (Regression) 分 析 预 测 法 


回归 分 析 预 测 法 是 在 分 析 某 一 个 现象 的 自 变量 和 因 变 量 之 间 相 关 关系 的 基础 上 ， 建 立 变量 之 
间 的 回归 方程 ， 并 将 回归 方程 作为 预测 模型 ， 根 据 自 变量 在 预测 期 的 数量 变化 来 预测 因 变 量 ， 因 
此 ， 回 归 分 析 预 测 法 是 一 种 重要 的 预测 方法 。 当 我 们 在 对 某 一 个 现象 未 来 发 展 状 况 和 水 平 进行 预 
测 时 ， 如 果 能 将 影响 预测 对 象 的 主要 因素 找到 ， 并 且 能 够 取得 其 数量 资料 ， 就 可 以 采用 回归 分 析 
预测 法 进行 预测 。 它 是 一 种 具体 的 、 行 之 有 效 的 、 实 用 价值 很 高 的 常用 市 场 预测 方法 。 

回归 分 析 预 测 法 有 多 种 类 型 。 依 据 相关 关系 中 自 变量 的 个 数 不 同 分 类 ， 可 分 为 一 元 回归 分 析 
预测 法 和 多 元 回归 分 析 预 测 法 。 在 一 元 回归 分 析 预 测 法 中 ， 自 变量 只 有 一 个 ， 而 在 多 元 回归 分 析 
预测 法 中 ， 自 变量 有 两 个 以 上 。 依 据 自 变量 和 因 变 量 之 间 的 相关 关系 不 同 ， 可 分 为 线性 回归 预测 
和 非 线性 回归 预测 。 回 归 分 析 预 测 法 的 步骤 是 


1. 根据 预 则 目标 ， 确 定 自 变 量 和 因 变 量 


明确 预测 的 具体 目标 ， 也 就 确定 了 因 变 量 。 如 预测 具体 目标 是 下 一 年 度 的 销售 量 ， 那 么 销售 
量 Y 就 是 因 变量 。 通 过 市 场 调查 和 查阅 资料 ， 寻 找 与 预测 目标 的 相关 影响 因素 ， 即 自 变 量 ， 并 
从 中 选 出 主要 的 影响 因素 。 

2. 建立 回 | 出 则 异型 

依据 自 变量 和 因 变 量 的 历史 统计 资料 进行 计算 ， 在 此 基础 上 建立 回归 分 析 方程 ， 即 回归 分 析 
预测 模型 。 

3. 进行 相关 分 析 
回归 分 析 是 对 具有 因果 关系 的 影响 因素 〈 自 变量 ) 和 预测 对 象 〈 因 变量 ) 所 进行 的 数理 统计 
分 析 处 理 。 只 有 当 变 量 与 因 变 量 确实 存在 某 种 关系 时 ， 建 立 的 回归 方程 才 有 意义 。 因 此 ， 作 为 自 
变量 的 因素 与 作为 因 变 量 的 预测 对 象 是 否 有 关 ， 相 关 程 度 如 何 ， 以 及 判断 这 种 相关 程度 的 把 握 性 
多 大 ， 就 成 为 进行 回归 分 析 必 须要 解决 的 问题 。 进 行 相关 分 析 ， 一 般 需 要 求 出 相关 关系 ， 以 相关 
系数 的 大 小 来 判断 自 变 量 和 因 变 量 的 相关 程度 。 

4. 检验 回归 项 则 模型 ， 计 算 预 则 误 差 
回归 预测 模型 是 否 可 用 于 实际 预测 ， 取 决 于 对 回归 预测 模型 的 检验 和 对 预测 误差 的 计算 。 
归 方程 具有 通过 各 种 检验 ， 且 预测 误差 较 小 ， 才 能 将 回归 方程 作为 预测 模型 进行 预测 。 

5. 计算 并 确定 预测 什 


利用 回归 预测 模型 计算 预测 值 ， 并 对 预测 值 进行 综合 分 析 ， 确 定 最 后 的 预测 值 。 
回归 分 析 预 测 法 是 一 类 比较 经 典 ， 也 比较 实用 的 预测 方法 。 正 是 由 于 它 比较 经 典 ， 因 此 也 比 
较 成 熟 ， 再 加 上 比较 容易 理解 ， 运 用 也 就 比较 广泛 。 相 比 之 下 ， 其 中 的 线性 回归 预测 法 和 非 线 性 


回 
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回归 预测 法 的 运用 更 广 些 。 在 实际 使 用 过 程 中 ， 如 果 在 选择 具体 的 方法 和 模型 时 ， 能 对 数据 作 较 
为 详细 的 分 析 ， 预 测 结果 也 就 会 比较 令 人 满意 的 。 


10.3 机 吕 学 习 


2016 年 3 月 的 人 机 围棋 大 战 突显 了 机 器 学 习 和 机 器 思考 的 威力 。 其 实 ， 如 今 的 商业 决策 越 
来 越 依赖 于 预测 数据 。 与 数据 预测 相关 的 数据 科学 分 支 中 有 不 少 大 家 所 熟知 的 方法 :机 器 学 习 、 
预测 分 析 和 人 工 智能 。 在 业界 ， 机 器 学 习 和 预测 分 析 这 两 个 术语 有 时 被 交 蔡 使 用 。 对 于 机 器 学 习 
而 言 ， 有 很 多 与 其 相关 的 用 例 : 


@ 产品 推荐 

@ ”客户 流失 预测 
@ ”欺诈 监测 和 预防 
@ ”信用 和 风险 管理 


在 预测 分 析 中 ， 我 们 要 对 数据 执行 操作 和 深入 分 析 两 个 步 又。 前面 的 几 个 章节 中 ， 我 们 主要 
关注 的 是 数据 操作 ，Stom、Spark、Hive 都 是 不 错 的 数据 操作 工具 。 本 节 讲 述 数据 深入 分 析 的 内 
容 。 从 高 层次 来 看 ， 有 两 类 机 器 学 习 算法 ， 分 别 是 监督 学 习 和 无 监督 学 习 。 这 两 种 算法 的 区 别 是 
训练 模型 和 构建 模型 的 方法 的 不 同 。 对 于 监督 学 习 来 说 ， 其 训练 集 包括 特征 和 目标 。 对 于 无 监督 
学 习 来 说 ， 其 构建 模型 不 需要 给 定 目标 值 ， 而 是 使 用 算法 在 数据 中 寻找 目标 。 机 器 学 习 的 基本 假 
设 是 : 过 去 发 生 的 事情 在 将 来 也 会 以 类 似 的 方式 发 生 ， 许 多 机 器 学 习 算法 尝试 提取 那些 数据 特征 
集中 隐藏 的 概念 ， 然 后 使 用 这 些 概念 来 预测 未 来 相似 的 事件 。 

在 维基 百科 上 对 机 器 学 习 提出 以 下 几 种 定义 : 


@@ ”机 器 学 习 是 一 门人 工 智能 的 科学 ， 该 领域 的 主要 研究 对 象 是 人 工 智 能 ， 特 别 是 如 何在 
经 验 学 习 中 改善 具体 算法 的 性 能 。 

@ ”机 器 学 习 是 对 能 通过 经 验 自动 改进 的 计算 机 算法 的 研究 。 

@ ”机 器 学 习 是 用 数据 或 以 往 的 经 验 ， 以 此 优化 计算 机 程序 的 性 能 标准 。 


为 了 帮助 大 家 理解 什么 是 机 器 学 习 ， 让 我 们 先 来 看 一 个 简单 的 故事 。 假 定 我 们 有 一 个 诊疗 机 
器 人 ， 它 负责 看 病 ， 下 面 可 能 是 机 器 和 病人 的 一 段 “ 对 话 ”: 


247 


大 数据 技术 入 门 


显然 ， 上 面 的 诊疗 机 器 人 会 给 患者 带 来 很 多 麻烦 。 这 个 机 器 人 还 需要 更 多 地 模拟 医生 的 学 习 
行为 ， 获 取 新 的 知识 ， 不 断 改 善 自身 的 性 能 。 最 著名 的 诊疗 机 器 人 当 属 IBM 于 2007 年 开始 研发 
的 沃 森 (Watson) 机 器 人 ， 沃 森 运 用 大 量 的 临床 病例 ， 可 在 短 时 间 内 分 析 可 能 的 结果 ， 并 协助 医 
生 做 出 治疗 建议 ， 大 大 减少 医生 朴 忽 的 机 会 。 沃 森 不 仅 可 以 即时 让 医师 参考 诊断 与 治疗 方式 ， 针 
对 可 能 的 疾病 做 深入 的 问 诊 ， 还 可 以 有 效 减 少 医 疗 纠纷 ， 缩 小 判断 误差 。 

机 器 学 习 包含 算法 、 模 型 和 评估 三 个 部 分 。 机 器 学 习 是 数据 通过 算法 构建 出 模型 并 对 模型 进 
行 评 估 ， 评 估 的 性 能 如 果 达 到 要 求 就 拿 这 个 模型 来 测试 其 他 的 数据 ， 如 果 达 不 到 要 求 就 要 调整 算 
法 来 重新 建立 模型 ， 再 次 进行 评估 ， 如 此 循环 往复 ， 最 终 获得 满意 的 经 验 来 处 理 其 他 的 数据 。 


10.3.1 机 器 学 习 的 市 场 动态 


大 数据 分 析 市 场 的 一 个 问题 是 ， 有 些 企业 尤其 是 中 小 企业 还 未 建立 起 对 数据 的 正确 认识 ， 不 
太 了 解数 据 的 真正 价值 ， 也 不 知道 如 何 通过 数据 来 指导 运营 和 业务 ， 这 需要 一 个 中 长 期 的 培育 。 
而 另 一 方面 ， 我 们 也 看 到 除了 大 型 机 构 和 大 型 企业 之 外 ， 一 部 分 中 小 企业 非常 清晰 地 认识 到 数据 
分 析 的 价值 ， 具 有 非常 强烈 地 建立 有 效 的 数据 化 运营 体系 的 愿望 ， 他 们 广泛 地 分 布 在 电 商 、 金 
融 、020 等 泛 互联 网 行业 ， 他 们 预测 用 户 行为 ， 并 推荐 相关 产品 ， 提 供 危 险 交 易 预警 服务 等 。 
我 们 已 经 注意 到 ， 越 来 越 多 的 企业 构建 适 配 的 数据 分 析 平台 ， 充 分 发 掘 数据 价值 ， 快 速成 长 为 所 
处 行业 的 佼佼 者 。 下 面 我 们 分 析 IBM 公司 在 机 器 学 习 上 的 布局 ， 以 此 了 解 整个 大 数据 分 析 的 市 
场 趋势 。 

在 2015 年 ，IBM 收购 了 初创 公司 AlchemyAPI， 虽 在 利用 其 工具 加 强 Watson 人 工 智能 。 
AlchemyAPI 提供 深度 学 习 服 务 等 技术 。IBM 还 设立 了 Watson Health， 并 收购 了 几 家 规模 较 小 的 
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医疗 数据 公司 ， 跟 苹果 、 强 生 和 Medtronic 建立 合作 关系 以 收集 可 穿戴 设备 的 数据 。 同 时 ，IBM 
与 美 敦 力 合作 改善 糖尿 病 疾 病 管理 。 通 过 运用 美 敦 力 的 设备 、 护 理 管理 产品 、 疗 法 和 辅导 以 及 
IBM 的 沃 森 医 疗 云 平台 以 优化 患者 的 治疗 效果 。 之 后 ，IBM 收购 了 两 家 初创 公司 : Explorys (一 
家 可 以 查看 5000 万 份 美国 患者 病例 的 分 析 公 司 ) 和 Phytel (提供 软件 把 各 种 类 型 的 健康 数据 进 
行 处 理 ， 为 医生 提供 数据 方面 的 分 析 )， 目 的 是 加 强 在 健康 数据 分 析 方 面 的 业务 能 力 。 随 之 而 来 
的 是 ， 美 国 和 加 拿 大 的 14 家 肿瘤 中 心 将 部 署 沃 森 (Watson) 计算 机 系统 ， 根 据 患者 的 肿瘤 基因 
选择 适当 的 治疗 方案 。IBM 与 在 线 心理 治疗 公司 Talkspace 合作 ， 通 过 机 器 学 习 ， 结 合 自然 语言 
处 理 和 用 户 个 性 分 析 技术 ， 辅 助 用 户 决策 ， 并 帮助 医生 给 出 最 佳 治疗 方案 。 

还 是 在 2015 年 ，IBM 宣布 以 10 亿美 元 的 价格 收购 医疗 影像 Merge Healthcare 公司 ， 并 将 其 
与 新 成 立 的 Watson Health 合并 。Watson 不 仅 可 以 读 懂 这 些 医疗 图 像 ， 还 可 以 根据 巨大 的 电子 病 
历数 据 库 进 行 分 析 诊 断 。 通 过 收购 Merge Healthcare，IBM 增强 了 自身 收集 并 传播 影像 的 能 力 ， 
而 这 正 是 通过 机 器 学 习 诊断 疾病 的 重要 一 步 。 紧 接着 ，IBM 和 美国 第 二 大 连锁 药店 CVS 联合 宣 
布 ，Watson 将 和 CVS 一 起 ， 通 过 对 相关 指标 和 用 户 行为 的 分 析 ， 来 预测 其 健康 状况 。CVS 将 向 
Watson 开放 海量 患者 行为 信息 、 临 床 数 据 、 购 药 数 据 和 保险 数据 等 。 通 过 对 用 户 医 疗 健康 记 
录 、 药 店 数据 等 信息 的 分 析 ， 可 以 预测 用 户 患 有 疾病 的 风险 ， 并 向 用 户 提供 执业 护士 、 医 生 以 及 
相关 的 医疗 保险 等 信息 ， 为 用 户 制定 一 个 最 佳 的 健康 问题 解决 方案 。 这 次 合作 将 覆盖 CVS 的 
7600 家 连锁 药店 、1000 家 医疗 诊所 。 总 辐射 人 群 超 过 7000 万 人 ， 占 美国 总 人 口 的 22%。 目 前 
双方 将 第 一 阶段 的 合作 放 在 慢 病 领 域 ， 包 括 高 血压 、 心 脏 病 、 糖 尿 病 和 肥胖 。 这 是 医疗 领域 的 一 
块 最 主要 的 市 场 (在 美国 ， 全 年 国民 医疗 总 花费 的 86% 来 源 于 慢 病 治疗 )。 

还 是 在 2015 年 ! 2015 年 10 月 初 ，IBM 宣布 组 建新 的 业务 部 门 ， 要 给 Watson 技术 进行 大 规 
模 商 业 化 。 这 个 新 组 建 的 部 门 名 为 “Cognitive Business Solutions”( 认 知 商务 解决 方案 )。 这 个 新 
部 门将 拥有 2000 名 员工 ， 为 企业 提供 有 关 如 何 利用 IBM 人 工 智 能 软件 的 咨询 建议 。 从 IBM 的 
整个 布局 上 看 ， 机 器 学 习 在 未 来 几 年 必然 是 非常 火热 的 。 


10.3.2 ”机 器 学 习 分 类 


机 器 学 习 按 照 学 习 形式 进行 分 类 ， 可 分 为 监督 学 习 、 无 监督 学 习 、 半 监督 学 习 和 强化 学 习 。 
我 们 先 介绍 几 个 术语 。 给 定 的 数据 集 ， 可 能 包含 以 下 几 类 字段 : 

@ ”特征 (feature ) : 该 类 别 描述 了 数据 的 属性 ， 比 如 : 年 龄 、 教 育 、 婚 否 、 职 业 、 收 入 、 
性 别 等 都 可 能 是 某 一 个 数据 集 的 特征 。 这 些 特 征 可 分 为 两 大 类 : 类 别 型 特征 (如 : 性 
别 ) 和 数值 型 特征 (如 : 年 龄 ) 。 

@ 标签 (label ) : 该 类 别 描述 了 一 些 已 知 结果 ， 其 中 结果 与 给 定 的 一 组 特征 有 关 。 比 
如 : 风险 类 别 就 是 标签 。 通 过 包含 标签 字段 ， 我 们 使 用 算法 找 出 一 些 特征 与 最 终 收入 
之 间 的 关系 。 这 个 算法 就 是 一 个 监督 学 习 算 法 。 

@ ”标识 (identifier) : 该 类 别 描述 了 数据 集中 可 以 唯一 标示 数据 的 字段 。 
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为 了 进行 预测 ， 需 要 从 历史 数据 中 获取 大 量 的 输入 和 相应 的 、 已 知 正确 的 数据 输出 。 整 个 输 
入 输出 数据 集 称 为 训练 数据 集 。 监 督学 习 就 是 从 给 定 的 训练 数据 集中 学 习 一 个 函数 〈 模 型 )， 当 
新 的 数据 到 来 时 ， 可 以 根据 这 个 函数 〈 模 型 ) 预测 结果 。 监 督学 习 的 训练 集 要 求 包括 输 入 和 输 
出 ， 也 可 以 说 是 特征 和 目标 。 训 练 集 中 的 目标 是 由 人 标注 〈 标 量 ) 的 。 在 监督 式 学 习 下 ， 输 入 数 
据 被 称 为 “训练 数据 ?， 每 组 训练 数据 有 一 个 明确 的 标识 或 结果 ， 比 如 对 防 垃圾 邮件 系统 中 “ 垃 
圾 邮件 和 “ 非 垃圾 邮件 ?”， 对 手写 数字 识别 中 的 “1 入 “2”“3” 等 。 在 建立 预测 模型 时 ， 监 督 式 
学 习 建立 一 个 学 习 过 程 ， 将 预测 结果 与 “训练 数据 ”的 实际 结果 进行 比较 ， 不 断 调整 预测 模型 ， 
直到 模型 的 预测 结果 达到 一 个 预期 的 准确 率 。 常 见 的 监督 学 习 算法 包括 回归 分 析 和 统计 分 类 。 回 
归 问 题 的 目标 为 数值 型 特征 ， 而 分 类 问题 的 目标 为 类 别 型 特征 。 二 元 分 类 是 机 器 学 习 要 解决 的 基 
本 问题 ， 将 测试 数据 分 成 两 个 类 ， 比 如 垃圾 邮件 的 判别 、 房 贷 是 否 允许 等 问题 的 判断 。 多 元 分 类 
是 二 元 分 类 的 逻辑 延伸 。 例 如 ， 在 因特网 的 流 分 类 的 情况 下 ， 根 据 问 题 的 分 类 ， 网 页 可 以 被 归 类 
为 体育 、 新 闻 、 技 术 等 ， 依 此 类 推 。 

监督 学 习 常 常用 于 分 类 ， 因 为 目标 往往 是 让 计算 机 去 学 习 我 们 已 经 创建 好 的 分 类 系统 。 数 字 
识别 再 一 次 成 为 分 类 学 习 的 常见 样本 。 一 般 来 说 ， 对 于 那些 有 用 的 分 类 系统 和 容易 判断 的 分 类 系 
统 ， 分 类 学 习 都 适用 。 

监督 学 习 是 训练 神经 网 络 和 决策 树 的 最 常见 技术 。 神 经 网 络 和 决策 树 技术 高 度 依赖 于 事先 确 
定 的 分 类 系统 给 出 的 信息 。 对 于 神经 网 络 来 说 ， 分 类 系统 用 于 判断 网 络 的 错误 ， 然 后 调整 网 络 去 
适应 它 ， 对 于 决策 树 ， 分 类 系统 用 来 判断 哪些 属性 提供 了 最 多 的 信息 ， 如 此 一 来 可 以 用 它 解决 分 
类 系统 的 问题 。 

2. 无 监督 学 习 

与 监督 学 习 相 比 ， 无 监督 学 习 的 训练 集 没 有 预先 标注 好 的 分 类 标签 。 在 无 监督 式 学 习 中 ， 数 
据 并 不 被 特别 标识 ， 学 习 模型 是 为 了 推断 出 数据 的 一 些 内 在 结构 。 常 见 的 应 用 场景 包括 关联 规则 
的 学 习 以 及 聚 类 等 。 常 见 算法 包括 Apriori 算法 和 k-Means 算法 。 

非 监督 学 习 看 起 来 非常 困难 : 目标 是 我 们 不 告诉 计算 机 怎么 做 ， 而 是 让 它 〈 计 算 机 ) 自己 去 
学 习 怎 样 做 一 些 事情 。 非 监督 学 习 一 般 有 两 种 思路 : 第 一 种 思路 是 在 指导 Agent 时 不 为 其 指定 明 
确 的 分 类 ， 而 是 在 成 功 时 采用 某 种 形式 的 激励 制度 。 需 要 注意 的 是 ， 这 类 训练 通常 会 置 于 决策 问 
题 的 框架 里 ， 因 为 它 的 目标 不 是 产生 一 个 分 类 系统 ， 而 是 做 出 最 大 回报 的 决定 。 这 种 思路 很 好 地 
概括 了 现实 世界 ，Agent 可 以 对 那些 正确 的 行为 做 出 激励 ， 并 对 其 他 的 行为 进行 处 罚 。 

因为 无 监督 学 习 假 定 没有 事先 分 类 的 样本 ， 这 在 一 些 情况 下 会 非常 强大 ， 例 如 ， 我 们 的 分 类 
方法 可 能 并 非 最 佳 选择 。 在 这 方面 一 个 突出 的 例子 是 人 机 围棋 大 战 ， 计 算 机 程序 通过 非 监督 学 习 
自己 一 遍 又 一 遍地 玩 这 个 围棋 游戏 ， 变 得 比 最 强 的 人 类 棋 手 还 要 出 色 。 这 些 程序 发 现 的 一 些 原则 
甚至 令 围棋 专家 都 感到 惊讶 ， 并 且 它 们 比 那些 使 用 预 分 类 样本 训练 的 围棋 程序 工作 得 更 出 色 。 


3. 半 监 督学 习 
半 监 督学 习 是 介 于 监督 学 习 与 无 监督 学 习 之 间 一 种 机 器 学 习 方式 ， 是 模式 识别 和 机 器 学 习 领 
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域 研究 的 重点 问题 。 它 主要 考虑 如 何 利用 少量 的 标注 样本 和 大 量 的 未 标注 样本 进行 训练 和 分 类 的 
问题 。 半 监督 学 习 对 于 减少 标注 代价 ， 提 高 学 习 机 器 性 能 具有 非常 重大 的 实际 意义 。 主 要 算法 有 
五 类 : 基于 概率 的 算法 ， 在 现 有 监督 算法 基础 上 进行 修改 的 方法 ， 直 接 依赖 于 聚 类 假设 的 方法 ， 
基于 多 试图 的 方法 ， 基 于 图 的 方法 。 在 半 监 督学 习 方 式 下 ， 输 入 数据 部 分 被 标识 ， 部 分 没有 被 标 
识 ， 这 种 学 习 模型 可 以 用 来 进行 预测 ， 但 是 模型 首先 需要 学 习 数 据 的 内 在 结构 ， 以 便 合理 地 组 织 
数据 来 进行 预测 。 应 用 场景 包括 分 类 和 回归 ， 算 法 包括 一 些 对 常用 监督 式 学 习 算法 的 延伸 ， 这 些 
算法 首先 试图 对 未 标识 数据 进行 建 模 ， 在 此 基础 上 再 对 标识 的 数据 进行 预测 ， 如 图 论 推理 算法 
(Graph Inference) 或 者 拉 普 拉 斯 支持 向 量 机 (Laplacian SVM) 等 。 半 监督 学 习 分 类 算法 提出 的 
时 间 比 较 短 ， 还 有 许多 方面 没有 更 深入 的 研究 。 

4. 强化 学 习 

强化 学 习 通 过 观察 来 学 习 动 作 的 完成 ， 每 个 动作 都 会 对 环境 有 所 影响 ， 学 习 对 象 根据 观察 到 
的 周围 环境 的 反馈 来 做 出 判断 。 在 这 种 学 习 模 式 下 ， 输 入 数据 作为 对 模型 的 反馈 ， 不 像 监督 模型 
那样 ， 输 入 数据 仅仅 是 作为 一 个 检查 模型 对 错 的 方式 ， 在 强化 学 习 下 ， 输 入 数据 直接 反馈 到 模 
型 ， 模 型 必须 对 此 立刻 做 出 调整 。 常 见 的 应 用 场景 包括 动态 系统 以 及 机 器 人 控制 等 。 常 见 算法 包 
括 Q-Learning 以 及 时 间 差 学 习 〈Temporal difference leaming )。 

在 企业 数据 应 用 的 场景 下 人们 最 常用 的 可 能 就 是 监督 式 学 习 和 非 监 督 式 学 习 的 模型 。 在 图 
像 识 别 等 领域 ， 由 于 存在 大 量 的 非 标 识 的 数据 和 少量 的 可 标识 数据 ， 目 前 半 监 督 式 学 习 是 一 个 很 
热 的 话题 。 而 强化 学 习 更 多 地 应 用 在 机 器 人 控制 及 其 他 需要 进行 系统 控制 的 领域 。 


10.3.3 ”机 器 学 习 算法 


机 器 学 习 算法 是 由 普通 的 算法 演化 而 来 。 通 过 自动 地 从 提供 的 数据 中 学 习 ， 它 会 让 你 的 程序 
变 得 更 “聪明 ”。 我 们 以 机 器 学 习 中 的 经 典故 事 “ 挑 芒果 ”来 解释 机 器 学 习 技术 。 假 定 你 从 市 场 
上 的 芒果 里 随机 地 抽取 一 定 的 样品 (训练 数据 )， 制作 一 张 表格 ， 上 面 记者 每 个 芒果 的 物理 属 
性 ， 比 如 颜色 、 大 小 、 形 状 、 产 地 、 卖 家 等 等 (这 些 称 之 为 特征 )。 还 记录 下 这 个 芒果 甜 不 甜 ， 
是 否 多 汁 ， 是 否 成 熟 〈 输 出 变量 )。 你 将 这 些 数据 提供 给 一 个 机 器 学 习 算法 《〈 分 类 算法 /回归 算 
法 )， 然 后 它 就 会 做 出 一 个 关于 芒果 的 物理 属性 和 它 的 质量 之 间 关 系 的 模型 。 下 次 你 再 去 超市 ， 
只 要 测 测 那些 芒果 的 特性 (测试 数据 )， 然 后 将 它 输入 一 个 机 器 学 习 算 法 。 算 法 将 根据 之 前 计算 
出 的 模型 来 预测 芒果 是 甜 的 、 熟 的 、 并 且 还 是 多 汁 的 。 该 算法 内 部 使 用 的 规则 其 实 就 类 似 决 策 
树 。 

机 器 学 习 算 法 的 一 个 优势 是 你 可 以 让 你 的 算法 随 着 时 间 越 变 越 好 增强 学 习 )， 当 它 读 进 更 
多 的 训练 数据 ， 它 就 会 更 加 准确 ， 并 且 在 做 了 错误 的 预测 之 后 自我 修正 。 这 就 是 所 谓 的 机 器 学 
习 。 

机 器 学 习 首先 被 用 在 人 工 智 能 领域 ， 用 于 提升 机 器 的 自我 学 习 能 力 。 最 近 几 年 机 器 学 习 才 被 
用 于 大 数据 分 析 领 域 。 大 数据 分 析 (数据 挖 掘 》 受 到 很 多 学 科 领 域 的 影响 ， 其 中 机 器 学 习 、 统 计 
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学 无 疑 影 响 最 大 。 简 言 之 ， 对 数据 挖掘 而 言 ， 机 器 学 习 和 统计 学 提供 数据 分 析 技 术 。 统 计 学 界 提 
供 的 很 多 技术 通常 都 要 在 机 器 学 习 界 进一步 研究 ， 变 成 有 效 的 机 器 学 习 算 法 之 后 ， 才 能 再 进入 数 
据 挖掘 领域 。 从 这 个 意义 上 说 ， 统 计 学 主要 是 通过 机 器 学 习 来 对 数据 挖掘 发 挥 影响 ， 而 机 器 学 习 
则 是 数据 挖掘 的 支撑 技术 。 从 数据 分 析 的 角度 来 看 ， 绝 大 多 数 数据 挖掘 技术 都 来 自 机 器 学 习 领 
域 ， 但 机 器 学 习 研 究 往 往 并 不 把 海量 数据 作为 处 理 对 象 ， 因 此 ， 数 据 挖 掘 要 对 算法 进行 改造 ， 使 
得 算法 性 能 和 空间 占用 达到 实用 的 地 步 。 同 时 ， 数 据 挖掘 还 有 自身 独特 的 内 容 ， 即 关联 分 析 。 
目前 机 器 学 习 被 广泛 应 用 于 信用 卡 欺诈、 医疗 大 数据 分 析 、 语 音 识 别 、 人 脸 识别 等 领域 。 在 
这 些 领域 ， 输 入 数据 和 输出 结果 的 关系 比较 复杂 ， 因 此 ， 需 要 给 机 器 提供 一 些 测试 数据 
(trainning data)， 让 机 器 自己 学 习 到 输入 数据 和 输出 结果 之 前 的 关联 关系 (模式 识别 )。 根 据 算 
法 的 功能 和 形式 的 类 似 性 ， 我 们 可 以 把 算法 分 类 ， 比 如 说 基于 树 的 算法 、 基 于 神经 网 络 的 算法 等 
等 。 当 然 ， 机 器 学 习 的 范围 非常 庞大 ， 有 些 算法 很 难 明确 归 类 到 某 一 类 。 而 对 于 有 些 分 类 来 说 ， 
同一 分 类 的 算法 可 以 针对 不 同类 型 的 问题 ， 下 面 用 一 些 相对 比较 容易 理解 的 方式 来 分 类 一 些 主要 
的 机 器 学 习 算法 : 
(1) 构造 条 件 概率 
回归 分 析 和 统计 分 类 ; 
人 工 神经 网 络 ; 
决策 树 ; 
高 斯 过 程 回归 ; 
线性 判别 分 析 ; 
最 近邻 居 法 ; 
支持 向 量 机 。 


通过 再 生 模 型 构造 概率 密度 函数 


@ 最 大 期 望 算 法 ; 
@ graphical model: 包括 贝 叶 斯 网 和 Markov 随机 场 ; 
@@ Generative Topographic Mapping。 


一 
[4 
= 


(3) 近似 推断 技术 


@ ”马尔 可 夫 链 蒙特 卡 罗 方法 ; 
日 。 交 分 法 ， 


1 0.4 Spark MLib 


Spark 在 机 器 学 习 方面 具有 得 天 独 厚 的 优势 。 机 器 学 习 算法 一 般 都 有 很 多 个 步骤 欠 代 计算 的 
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过 程 ， 机 器 学 习 的 计算 需要 在 多 次 迭代 后 ， 获 得 足够 小 的 误差 或 者 足够 收敛 才 会 停止 。 连 代 时 如 
果 使 用 Hadoop 的 MapReduce 计算 框架 ， 每 次 计算 都 要 读 / 写 磁盘 以 及 任务 的 启动 等 工作 ， 这 会 
导致 非常 大 的 TO 和 CPU 消耗 。 而 Spark 基于 内 存 的 计算 模型 就 非常 擅长 迭代 计算 ， 多 个 步 又 
计算 直接 在 内 存 中 完成 ， 只 有 在 必要 时 才 会 操作 磁盘 和 网 络 ， 所 以 说 Spark 正 是 机 器 学 习 的 理想 
的 平台 。 


10.4.1 ”MLib 架构 


MLlib (Machine Learnig lib) 是 Spark 对 常用 的 机 器 学 习 算 法 的 实现 库 ， 同 时 包括 相关 的 测 
试 和 数据 生成 器 。MLlib 目前 支持 4 种 常见 的 机 器 学 习 问 题 : 分 类 、 回 归 、 聚 类 和 协同 过 滤 。 
MLlib 基于 RDD， 可 以 与 Spark SQL、GraphX、Spark Streaming 无 颖 集成 ， 以 RDD 为 基 
石 ，4 个 子 框架 (Spark SQL、Spark Streaming、MLib 和 GraphX) 可 联手 构建 大 数据 系统 。 
MLlib 是 MLBase 一 部 分 。MLBase 通过 边界 定义 ， 力 图 将 MLBase 打造 成 一 个 机 器 学 习 平台 ， 
让 不 了 解 机 器 学 习 的 用 户 也 能 方便 地 使 用 MLBase 这 个 工具 来 处 理 自己 的 数据 。MLBase 分 为 四 
部 分 : MLlib、MLI、ML Optimizer 和 MLRuntime: 
@ ”ML Optimizer 会 选择 它 认 为 最 适合 的 已 经 在 内 部 实现 好 了 的 机 器 学 习 算 法 和 相关 参数 
来 处 理 用 户 输入 的 数据 ， 并 返回 模型 或 别 的 帮助 分 析 的 结果 ; 
@ MLI 是 一 个 进行 特征 抽取 和 高 级 ML 编程 抽象 算法 实现 的 API 或 平台 ; 
@ MLlib 是 Spark 实现 一 些 常 见 的 机 器 学 习 算法 和 实用 程序 ， 包 括 分 类 、 回 归 、 聚 类 、 协 
同 过 滤 、 降 维 以 及 底层 优化 ， 该 算法 可 扩充 
@ MLRuntime 基于 Spark 计算 框架 ， 将 Spark 的 分 布 式 计算 应 用 到 机 器 学 习 领 域 。 


Spark MLlib 架构 主要 包含 三 个 部 分 : 


@ ”底层 基础 : 包括 Spark 的 运行 库 、 矩 阵 库 和 向 量 库 ; 底层 基础 部 分 主要 包括 向 量 接口 和 
矩阵 接口 ， 这 两 种 接口 都 会 使 用 Scala 语言 基于 Netlib 和 BLAS/LAPACK 开发 的 线性 
代数 库 Breeze; 

@ 算法 库 : 包含 广义 线性 模型 、 推 荐 系统 、 聚 类 、 决 策 树 和 评估 的 算法 ; 

@ 实用 程序 : 包括 测试 数据 的 生成 、 外 部 数据 的 读 入 等 功能 。 


10.4.2 ”MLib 算法 库 
本 小 节 我 们 分 析 一 些 Spark 中 常用 的 机 器 学 习 算法 。 
1. 分 类 算法 
MLib 支持 二 元 分 类 、 多 元 分 类 等 多 种 算法 。 分 类 算法 属于 监督 式 学 习 ， 使 用 类 标签 已 知 的 


样本 建立 一 个 分 类 函数 或 分 类 模型 、 应 用 分 类 模型 ， 能 把 数据 库 中 的 类 标签 未 知 的 数据 进行 归 
类 。 分 类 在 数据 挖掘 中 是 一 项 重要 的 任务 ， 目 前 在 商业 上 应 用 最 多 ， 常 见 的 典型 应 用 场景 有 流失 
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预测 、 精 确 营销 、 客 户 获 取 、 个 性 偏好 等 。MLlib 目前 支持 分 类 算法 有 : 逻辑 回归 、 线 性 支持 
向 量 机 、 朴 素 贝 叶 斯 和 决策 树 。 

实例 : 加 载 一 个 训练 数据 集 ， 然 后 在 训练 集 上 执行 训练 算法 ， 最 后 在 所 得 模型 上 进行 预测 并 
计算 训练 误差 。 


2. 回归 算法 


回归 算法 属于 监督 式 学 习 ， 每 个 个 体 都 有 一 个 与 之 相关 联 的 实数 标签 ， 并 且 我 们 希望 在 给 出 
用 于 表示 这 些 实体 的 数值 特征 后 ， 所 预测 出 的 标签 值 尽 可 能 接近 实际 值 。MLlib 目前 支持 回归 
算法 有 : 线性 回归 、 岭 回归 、Lasso 和 决策 树 。 

实例 : 加 载 一 个 训练 数据 集 ， 将 其 解析 为 带 标签 点 的 RDD， 使 用 LinearRegression WithSGD 
算法 建立 一 个 简单 的 线性 模型 来 预测 标签 的 值 ， 最 后 计算 均 方差 来 评估 预测 值 与 实际 值 的 吻合 
度 。 
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3. 聚 类 算法 


聚 类 算法 属于 非 监督 式 学 习 ， 它 是 研究 分 类 问题 的 一 种 统计 分 析 方法 。 它 通常 被 用 于 探索 性 
的 分 析 ， 是 根据 “ 物 以 类 聚 ” 的 原理 ， 将 本 身 没有 类 别 的 样本 聚集 成 不 同 的 组 ， 这 样 的 一 组 数据 
对 象 的 集合 叫做 筷 ， 并 且 对 每 一 个 这 样 的 艇 进行 描述 的 过 程 。 它 的 目的 是 使 得 属于 同一 秘 的 样本 
之 间 应 该 彼此 相似 ， 而 不 同 簇 的 样本 应 该 足够 不 相似 ， 常 见 的 典型 应 用 场景 有 客户 细 分 、 客 户 研 
究 、 市 场 细 分 、 价 值 评 估 。MLlib 目前 支持 广泛 使 用 的 K-Mmeans 聚 类 算法 。 

实例 ， 导 入 训练 数据 集 ， 使 用 K-Means 对 象 来 将 数据 聚 类 到 两 个 类 簇 中 ， 所 需 的 类 簇 个 数 
会 被 传递 到 算法 中 ， 然 后 计算 集 内 均 方差 总 和 (WSSSE)， 可 以 通过 增加 类 簇 的 个 数 k 来 减 小 
误差 。 
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4. 协同 过 滤 算 法 

协同 过 滤 算 法 常 被 应 用 于 推荐 系统 ， 这 些 技术 旨 在 补充 用 户 -商品 关联 窍 阵 中 所 缺 失 的 部 
分 。Spark 支持 ALS 推荐 引擎 算法 。 

实例 : 导入 训练 数据 集 ， 数 据 每 一 行 由 一 个 用 户 、 一 个 商品 和 相应 的 评分 组 成 。 假 设 评分 是 
显 性 的 ， 使 用 默认 的 ALS.train0 方 法 ， 通 过 计算 预测 出 的 评分 的 均 方差 来 评估 这 个 推荐 模型 。 
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10.4.3 ”决策 树 


本 节 将 对 机 器 学 习 领 域 中 经 典 的 分 类 和 回归 算法 一 一 随机 森林 (Random Forests) 进行 介 
绍 。 随 机 森林 算法 是 机 器 学 习 、 计 算 机 视觉 等 领域 内 应 用 极为 广泛 的 一 个 算法 ， 它 不 仅 可 以 用 来 
做 分 类 ， 也 可 用 来 做 回归 ， 即 预测 ， 随 机 森林 算法 由 多 个 决策 树 构成 ， 相 比 于 单个 决策 树 算法 ， 
它 分 类 、 预 测 效 果 更 好 ， 不 容易 出 现 过 度 拟 合 的 情况 。 

随机 森林 算法 基于 决策 树 。 决 策 树 是 数据 挖掘 与 机 器 学 习 领 域 中 一 种 非常 重要 的 分 类 器 ， 算 
法 通过 训练 数据 来 构建 一 棵 用 于 分 类 的 树 ， 从 而 对 未 知 数据 进行 高 效 分 类 。 举 个 相亲 的 例子 来 说 
明 什 么 是 决策 树 ， 如 何 构建 一 个 决策 树 ， 以 及 如 何 利用 决策 树 进行 分 类 。 某 相亲 网 站 通过 调查 相 
亲历 史 数据 发 现 ， 女 孩 在 实际 相亲 时 有 如 下 表现 : 


通过 上 面 的 历史 数据 可 以 构建 如 图 10-2 所 示 的 决策 树 : 
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i 
a Ee 
2 、 
见面 年 收入 
小 于 35 大 于 35 
见面 不 见面 
图 10-2 决策 树 


如 果 网 站 新 注册 了 一 个 用 户 ， 他 在 城市 无 房产 、 年 收入 小 于 35w 且 离 过 婚 ， 则 可 以 预测 女 
孩 不 会 跟 他 见面 。 通 过 上 面 这 个 简单 的 例子 可 以 看 出 ， 决 策 树 对 于 现实 生活 具有 很 强 的 指导 意 
义 。 通 过 该 例子 ， 我 们 也 可 以 总 结 出 决策 树 的 构建 步骤 : 


(Io01 将 所 有 记录 看 作 是 一 个 节点 。 

GI02 遍历 每 个 变量 的 每 种 分 割 方式 ， 找 到 最 好 的 分 割 点 。 

I03 利用 分 割 点 将 记录 分 割 成 两 个 子 结 点 Cl 和 C2。 

人 64 对 子 结 点 C1 和 C2 重复 执行 步骤 (2 )、(3 )， 直 到 满足 特定 条 件 为 止 。 


在 构建 决策 树 的 过 程 中 ， 最 重要 的 是 如 何 找到 最 好 的 分 割 点 ， 那 怎样 的 分 割 点 才 算是 最 好 的 
呢 ? 如 果 一 个 分 割 点 能 够 将 整个 记录 准确 地 分 为 两 类 ， 那 该 分 割 点 就 可 以 认为 是 最 好 的 ， 此 时 被 
分 成 的 两 类 是 相对 来 说 是 最 “ 纯 ” 的 。 例 如 前 面 的 相亲 例子 中 ，“ 在 城市 拥有 房产 ”可 以 将 所 有 
记录 分 两 类 ， 所 有 是 “是 ”的 都 可 以 划 为 一 类 ， 而 “ 否 ” 的 则 都 被 划 为 另外 一 类 。 所 有 “是 ” 划 
分 后 的 类 是 最 “ 纯 ” 的 ， 因 为 所 有 在 城市 拥有 房产 单身 男士 ， 不 管 他 是 否 离 过 婚 、 年 收入 多 少 都 
会 见面 ， 而 所 有 “和 否 ” 划 分 后 的 类 ， 又 被 分 为 两 类 ， 其 中 有 见面 的 ， 也 有 不 见面 的 ， 因 此 它 不 是 
很 纯 ， 但 对 于 整体 记录 来 讲 ， 它 是 最 纯 的 。 在 上 述 例子 当中 ， 可 以 看 到 决策 树 既 可 以 处 理 连 续 型 
变量 也 可 以 处 理 名 称 型 变量 。 连 续 型 变量 如 年 收入 ， 它 可 以 用 “>=”，“>”,“< ”或 “<=” 作 
为 分 割 条 件 ， 而 名 称 型 变量 如 城市 是 否 拥 有 房产 ， 值 是 有 限 的 集合 如 “是 ”、“ 和 否 “ 两 种 ， 它 采 
用 “=” 作 为 分 割 条 件 。 

在 前 面 提 到 ， 寻 找 最 好 的 分 割 点 是 通过 量化 分 割 后 类 的 纯度 来 确定 的 ， 目 前 有 三 种 纯度 计算 
方式 ， 分 别 是 Gini 不 纯度 、 粹 (Entropy〉 及 错误 率 。 关 于 这 些 计算 方式 的 更 多 内 容 ， 读 者 可 参 
考 算法 的 专业 书籍 。 

决策 树 算法 负责 为 每 层 生成 可 能 的 决策 规则 。 对 于 数值 型 特征 ， 决 策 采用 特征 >= 值 的 形 
式 ， 对 于 类 别 型 特征 ， 决 策 采用 特征 在 〈 值 1， 值 2，…) 中 的 形式 。 因 此 ， 要 尝试 的 决策 规则 
集合 实际 是 可 以 嵌入 决策 规则 中 的 一 系列 值 。Spark MLib 把 决策 规则 集合 称 为 “bin”。bin 的 数 
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量 越 多 ， 需 要 的 处 理 时 间 越 多 ， 但 找到 的 决策 规则 可 能 更 优 。 

决策 树 的 构建 是 一 个 递归 的 过 程 ， 理 想 情况 下 所 有 的 记录 都 能 被 精确 分 类 ， 即 生成 决策 树叶 
节点 都 有 确定 的 类 型 ， 但 现实 中 这 种 条 件 往往 很 难 满 足 ， 这 使 得 决策 树 在 构建 时 可 能 很 难 停止 。 
即使 构建 完成 ， 也 常常 会 使 得 最 终 的 节点 数 过 多 ， 从 而 导致 过 度 拟 合 (overfitting)， 因 此 在 实际 
应 用 中 需要 设 定 停止 条 件 ， 当 达到 停止 条 件 时 ， 直 接 停止 决策 树 的 构建 。 但 这 仍然 不 能 完全 解决 
过 度 拟 合 问题 ， 过 度 拟 合 的 典型 表现 是 决策 树 对 训练 数据 错误 率 很 低 ， 而 对 测试 数据 其 错误 率 却 
非常 高 。 过 度 拟 合 常见 原因 有 : 〈1) 训练 数据 中 存在 噪声 ;〈2) 数据 不 具有 代表 性 。 过 度 拟 合 的 
典型 表现 是 决策 树 的 节点 过 多 ， 因 此 实际 中 常常 需要 对 构建 好 的 决策 树 进 行 枝叶 裁剪 〈Prune 
Tree)， 但 它 不 能 解决 根本 问题 ， 随 机 森林 算法 的 出 现 能 够 较 好 地 解决 过 度 拟 合 问题 。 

随机 森林 算法 由 多 个 决策 树 构成 的 森林 ， 算 法 分 类 结果 由 这 些 决策 树 投票 得 到 ， 决 策 树 在 生 
成 的 过 程 当中 ， 分 别 在 行 方 向 和 列 方向 上 添加 随机 过 程 ， 行 方向 上 构建 决策 树 时 采用 放 回 抽样 
《bootstraping》 得 到 训练 数据 ， 列 方向 上 采用 无 放 回 随机 抽样 得 到 特征 子 集 ， 并 据 此 得 到 其 最 优 
切 分 点 ， 这 便 是 随机 森林 算法 的 基本 原理 。 随 机 森林 是 一 个 组 合 模型 ， 内 部 仍然 是 基于 决策 树 ， 
同 单一 的 决策 树 分 类 不 同 的 是 ， 随 机 森林 通过 多 个 决策 树 投票 结果 进行 分 类 ， 算 法 不 容易 出 现 过 
度 拟 合 问题 。 

随机 森林 算法 在 单机 环境 下 很 容易 实现 ， 但 在 分 布 式 环境 下 特别 是 在 Spark 平台 上 ， 传 统 
单机 形式 的 迭代 方式 必须 进行 相应 改进 才能 适用 于 分 布 式 环境 ， 这 是 因为 在 分 布 式 环境 下 ， 数 据 
也 是 分 布 式 的 ， 算 法 设计 不 得 当 会 生成 大 量 的 IO 操作 ， 例 如 频繁 的 网 络 数据 传输 ， 从 而 影响 
算法 效率 。 

下 面 是 Spark 官网 上 的 随机 森林 算法 的 demo 程序 : 


259 


大 数据 技术 入 门 


通过 上 述 样 例 代码 可 以 看 到 ， 从 使 用 者 的 角度 来 看 ， 随 机 森林 中 关键 的 类 是 
org.apache.spark.mllib.tree.RandomForest 和 org.apache.spark.mllib.tree.model.RandomForestModel 
这 两 个 类 ， 它 们 提供 了 随机 森林 具体 的 trainClassifier 和 predict 函数 。 

我 们 再 来 看 一 个 案例 来 说 明 随 机 森林 的 具体 应 用 。 一 般 银行 在 货款 之 前 都 需要 对 客户 的 还 款 
能 力 进行 评估 ， 但 如 果 客 户 数据 量 比较 庞大 ， 信 和 贷 审 核 人 员 的 压力 会 非常 大 ， 此 时 常常 会 希望 通 
过 计算 机 来 进行 辅助 决策 。 随 机 森林 算法 可 以 在 该 场景 下 使 用 ， 例 如 可 以 将 原 有 的 历史 数据 输入 
到 随机 森林 算法 当中 进行 数据 训练 ， 利 用 训练 后 得 到 的 模型 对 新 的 客户 数据 进行 分 类 ， 这 样 便 可 
以 过 滤 掉 大 量 的 无 还 款 能 力 的 客户 ， 如 此 便 能 极 大 地 减少 信 货 审核 人 员 的 工作 量 。 
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将 表 中 所 有 数据 转换 后 ， 保 存 为 sample_data.txt， 该 数据 用 于 训练 随机 森林 。 我 们 将 测试 数 
据 保存 为 inputtxt。 代 码 如 下 : 


上 述 代码 既 可 以 打包 后 利用 spark-summit 提交 到 服务 器 上 执行 ， 也 可 以 在 spark-shell 上 执 
行 查看 结果 。 


10.5 深入 了 解 算法 


“如 何 分 辨 出 垃圾 邮件 ”“ 如 何 判断 一 笔 交 易 是 否 属于 欺诈 ”“ 如 何 判断 一 个 细胞 是 否 属于 
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肿瘤 细胞 ”等 等 ， 这 些 问 题 都 属于 数据 挖掘 〈Data Mining) 的 范畴 ， 都 很 专业 ， 都 不 太 好 回 
答 。 本 节 从 数据 挖掘 的 角度 来 深入 了 解 算法 ， 并 通过 现实 中 触手 可 及 的 、 活 生生 的 案例 ， 去 诠释 
它 的 真实 存在 。 一 般 来 说 ， 数 据 挖掘 的 算法 主要 包含 四 种 类 型 ， 即 分 类 、 预 测 、 聚 类 、 关 联 。 前 
两 种 属于 有 监督 学 习 ， 后 两 种 属于 无 监督 学 习 ， 属 于 描述 性 的 模式 识别 和 发 现 。 有 监督 的 学 习 ， 
即 存在 目标 变量 ， 需 要 探索 特征 变量 和 目标 变量 之 间 的 关系 ， 在 目标 变量 的 监督 下 学 习 和 优化 算 
法 。 例 如 ， 信 用 评分 模型 就 是 典型 的 有 监督 学 习 ， 目 标 变量 为 “是 否 违约 ”。 算 法 的 目的 在 于 研 
究 特征 变量 (人口 统 计 、 资 产 属性 等 ) 和 目标 变量 之 间 的 关系 。 

无 监督 学 习 是 指 不 存在 目标 变量 ， 基 于 数据 本 身 去 识别 变量 之 间 内 在 的 模式 和 特征 。 例 如 关 
联 分 析 ， 通 过 数据 发 现 项 目 A 和 项 目 B 之 间 的 关联 性 。 例 如 聚 类 分 析 ， 通 过 距离 将 所 有 样本 划 
分 为 几 个 稳定 可 区 分 的 群体 。 这些 都 是 在 没有 目标 变量 监督 下 的 模式 识别 和 分 析 。 


10.5.1 分 类 算法 


分 类 算法 和 预测 算法 的 最 大 区 别 在 于 ， 前 者 的 目标 变量 是 分 类 离散 型 例如， 是否 逾期 、 是 
否 肿瘤 细胞 、 是 否 垃圾 邮件 等 ) ， 后 者 的 目标 变量 是 连续 型 。 一 般 而 言 ， 具 体 的 分 类 算法 包括 : 
逻辑 回归 、 决 策 树 、KNN、 贝 叶 斯 判别 、SVM、 随 机 森林 、 神 经 网 络 等 。 我 们 通过 两 个 案例 来 
深入 了 解 分 类 算法 。 一 个 是 垃圾 邮件 的 分 类 和 判断 ， 另 外 一 个 是 肿瘤 细胞 的 判断 和 分 辩 。 

1. 垃圾 邮件 的 判别 

邮箱 系统 如 何 分 辨 一 封 Email 是 否 属于 垃圾 邮件 这 应 该 属于 文本 挖掘 的 范畴 ， 通 常会 采用 
朴素 贝 叶 斯 的 方法 进行 判别 。 它 的 主要 原理 是 ， 根 据 邮 件 正文 中 的 单词 ， 是 否 经 常 出 现在 垃圾 邮 
件 中 进行 判断 。 例 如 ， 如 果 一 份 邮件 的 正文 中 包含 “报销 ”、“ 发 票 ”、“ 促 销 ”等 词汇 时 ， 该 
邮件 被 判定 为 垃圾 邮件 的 概率 将 会 比较 大 。 

一 般 来 说 ， 判 断 邮件 是 否 属于 垃圾 邮件 ， 应 该 包含 以 下 几 个 步骤 。 


人 ED 把 邮件 正文 折 解 成 单词 组 合 ， 假 设 某 篇 邮件 包含 100 个 单词 。 
BI02 根据 贝 叶 斯 条 件 概率 ， 计 算 一 封 已 经 出 现 了 这 100 个 单词 的 邮件 ， 属 于 垃圾 邮件 的 概 
率 和 正常 邮件 的 概率 。 如 果 结 果 表明 ， 属 于 垃圾 邮件 的 概率 大 于 正常 邮件 的 概率 。 那 
么 该 邮件 就 会 被 划 为 垃圾 邮件 。 
2. 医学 上 的 肿瘤 判断 
如 何 判断 细胞 是 否 属于 肿瘤 细胞 呢 ? 肿瘤 细胞 和 普通 细胞 有 差别 ， 但 是 这 需要 非常 有 经 验 的 
医生 ， 通 过 病理 切片 才能 判断 。 如 果 通 过 机 器 学 习 的 方式 ， 使 得 系统 自动 识别 出 肿瘤 细胞 ， 此 时 
的 看 病 效率 ， 将 会 得 到 飞速 的 提升 。 并 且 ， 通 过 主观 〈 医 生 ) + 客观 〈 模 型 ) 的 方式 识别 肿瘤 细 
胞 ， 结 果 交 叉 验 证 ， 结 论 可 能 更 加 靠 谱 。 那 么 ， 如 何 操作 呢 ? 通过 分 类 模型 识别 。 简 言 之 ， 包 含 
下 面 两 个 步骤 。 
全 FI0l 通过 一 系列 指标 刻画 细胞 特征 ,例如 细胞 的 半径 、 质 地 、 周 长 、 面 积 、 光 滑 度 、 对 称 
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性 、 媚 西 性 等 等 ， 构 成 细胞 特征 的 数据 。 
G02 在 细胞 特征 列表 的 基础 上 ， 通 过 搭建 分 类 模型 进行 肿瘤 细胞 的 判断 。 


10.5.2 ”预测 算法 


预测 类 算法 ， 其 目标 变量 一 般 是 连续 型 变量 。 常 见 的 算法 ， 包 括 线性 回归 、 回 归 树 、 神 经 网 
络 、SVM 等 。 本 小 节 主 要 介绍 两 个 案例 ， 即 一 个 是 通过 化 学 特性 判断 和 预测 红酒 的 品质 ， 另 外 
-个 是 通过 搜索 引擎 来 预测 和 判断 股价 的 波动 和 趋势 。 


1. 红酒 品质 的 判断 


如 何 评 鉴 红酒 ? 有 经 验 的 人 会 说 ， 红 酒 最 重要 的 是 口感 。 而 口感 的 好 坏 ， 受 很 多 因素 的 影 
响 ， 例 如 年 份 、 产 地 、 气 候 、 酿 造 的 工艺 等 等 。 但 是 ， 统 计 学 家 并 没有 时 间 去 品尝 各 种 各 样 的 红 
酒 ， 他 们 觉得 通过 一 些 化 学 属性 特征 就 能 够 很 好 地 判断 红酒 的 品质 了 。 现 在 很 多 酿酒 企业 其 实 也 
都 这 么 干 了 ， 通 过 监测 红酒 中 化 学 成 分 的 含量 ， 从 而 控制 红酒 的 品质 和 口感 。 那 么 ， 如 何 判 断 红 
酒 的 品质 呢 ? 


人 ET) 收集 很 多 红酒 样本 ， 整 理 检测 他 们 的 化 学 特性 ， 例 如 : 酸性 、 含 糖 量 、 气 化 物 含量 、 
硫 含 量 、 酒 精度 、PH 值 、 密 度 等 等 。 
人 0? 通过 分 类 回归 树 模型 进行 预测 和 判断 红酒 的 品质 和 等 级 。 


2. 搜索 引擎 的 搜索 量 和 股价 波动 


Google 发 现 ， 互 联网 关键 词 的 搜索 量 〈 例 如 流感 ) 会 比 疾 控 中 心 提 前 1~2 周 预 测 出 某 地 区 
流感 的 爆发 。 同 样 ， 现 在 也 有 些 学 者 发 现 了 这 样 一 种 现象 ， 即 公司 在 互联 网 中 搜索 量 的 变化 ， 会 
显著 影响 公司 股价 的 波动 和 趋势 ， 即 所 谓 的 投资 者 注意 力 理论 。 该 理论 认为 ， 公 司 在 搜索 引擎 中 
的 搜索 量 ， 代 表 了 该 股票 被 投资 者 关注 的 程度 。 因 此 ， 当 一 只 股票 的 搜索 频数 增加 时 ， 说 明 投资 
者 对 该 股票 的 关注 度 提 升 ， 从 而 使 得 该 股票 更 容易 被 个 人 投资 者 购买 ， 进 一 步 地 导致 股票 价格 上 
升 ， 带 来 正 向 的 股票 收益 。 这 是 已 经 得 到 无 数论 文 验证 了 的 。 


10.5.3” 聚 类 分 析 


聚 类 的 目的 就 是 实现 对 样本 的 细 分 ， 使 得 同 组 内 的 样本 特征 较为 相似 ， 不 同 组 的 样本 特征 差 
异 较 大 。 常 见 的 聚 类 算法 包括 Kmeans、 系 谱 聚 类 、 密 度 聚 类 等 。 对 客户 的 细 分 ， 可 以 采用 聚 类 
分 析 。 这 能 够 有 效 地 划分 出 客户 群体 ， 使 得 群体 内 部 成 员 具 有 相似 性 ， 但 是 群体 之 间 存 在 差异 
性 。 其 目的 在 于 识别 不 同 的 客户 群体 ， 然 后 针对 不 同 的 客户 群体 ， 精 准 地 进行 产品 设计 和 推送 ， 
从 而 节约 营销 成 本 ， 提 高 营销 效率 。 

例如 ， 针 对 商业 银行 中 的 零售 客户 进行 细 分 ， 基 于 零售 客户 的 特征 变量 (人口 特 征 、 资 产 特 
征 、 负 俩 特征、 结算 特征 ) ， 计 算 客户 之 间 的 距离 。 然 后 ， 按 照 距 离 的 远近 ， 把 相似 的 客户 聚集 
为 一 类 ， 从 而 有 效 地 细 分 客户 。 将 全 体 客户 划分 为 诸如 : 理财 偏好 者 、 基 金 偏好 者 、 活 期 偏好 
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者 、 国 债 偏好 者 、 风 险 均 衡 者 、 渠 道 偏 好 者 等 。 
Kmeans〔K 均值 聚 类 ) 是 应 用 最 广泛 的 聚 类 算法 。 它 试图 在 数据 集中 找 出 k 个 艇 群 ， 这 里 
k 值 由 数据 科学 家 指定 。Spark MLib 提供 了 Kmeans 的 实现 类 ， 比 如 : 


import org.apache.spark.mllib.clustering. 


val kmeans = new KMeans () 

kmeans .SetK (k) 

Val model = kmeans .run (data) 
model.clusterCenters.foreach (Println) 


上 面 这 个 代码 首先 建立 了 KMeans 模型 ， 然 后 输出 每 个 簇 的 质心 。 


10.5.4 ”关联 分 析 


关联 分 析 的 目的 在 于 ， 找 出 项 目 (item) 之 间 内 在 的 联系 。 常 常 是 指 购物 篮 分 析 ， 即 消费 者 
常常 会 同时 购买 哪些 产品 〈 例 如 游泳 裤 、 防 晒 霜 ) ， 从 而 有 助 于 商家 的 拥 绑 销售 。 

啤酒 尿布 是 一 个 经 典 的 关联 分 析 的 故事 。 故 事 是 这 样 的 ， 沃 尔 玛 发 现 一 个 非常 有 趣 的 现象 ， 
即 把 尿布 与 啤酒 这 两 种 风 马 牛 不 相 及 的 商品 摆 在 一 起 ， 能 够 大 幅 增 加 两 者 的 销量 。 原 因 在 于 ， 美 
国 的 妇女 通常 在 家 照顾 孩子 ， 所 以 ， 她 们 常常 会 嘱 只 丈 夫 在 下 班 回 家 的 路 上 为 孩子 买 尿布 ， 而 丈 
夫 在 买 尿布 的 同时 又 会 顺手 购买 自己 爱 喝 的 啤酒 。 沃 尔 玛 从 数据 中 发 现 了 这 种 关联 性 ， 因 此 ， 将 
这 两 种 商品 并 署 ， 从 而 大 大 提高 了 关联 销售 。 啤 酒 尿 布 主要 讲 的 是 产品 之 间 的 关联 性 ， 如 果 大 量 
的 数据 表明 ， 消 费 者 购买 A 商品 的 同时 ， 也 会 顺带 着 购买 B 产品 。 那 么 A 和 B 之 间 存 在 关联 
性 。 在 超市 中 ， 常 常会 看 到 两 个 商品 的 捆绑 销售 ， 很 有 可 能 就 是 关联 分 析 的 结果 。 

啤酒 与 尿布 的 故事 很 好 地 解释 了 数据 挖掘 中 的 关联 规则 挖掘 的 原理 。 我 们 也 以 这 个 故事 来 解 
释 关联 规则 挖掘 的 基本 概念 。 下 面 表 10-1 中 的 每 一 行 代表 一 次 购买 清单 〈 注 意 你 购买 十 盒 牛奶 
也 只 计 一 次 ， 即 只 记录 某 个 商品 的 出 现 与 否 )。 数 据 记 录 的 所 有 项 的 集合 称 为 总 项 集 ， 表 中 的 总 
项 集 S={ 牛 奶 ,面包 ,尿布 ,啤酒 ,鸡蛋 ,可 乐 }。 


表 10-1 某 时 刻 商品 关联 关系 表 


时 间 (TID) 商品 (1tems) 
Tl {牛奶 ,面包 } 
| | 面包 尿布 趾 酒 鸡蛋 } | 
Ee | 征 奶 尿布 趾 酒 可 乐 } | 
T4 面包 沾 奶 尿布 啤酒 } 


NS 


1. 关联 规则 、 自 信 度 、 自 持 度 的 定义 
关联 规则 就 是 有 关联 的 规则 ， 形 式 是 这 样 定义 的 : 两 个 不 相交 的 非 空 集 合 X、Y， 如 果 有 
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X->Y， 就 说 X->Y 是 一 条 关联 规则 。 举 个 例子 ， 在 上 面 的 表 中 ， 我 们 发 现 购买 啤酒 就 一 定 会 购 
买 尿布 ，{ 啤 酒 }->{ 尿 布 } 就 是 一 条 关联 规则 。 关 联 规则 的 强度 用 支持 度 〈support〉 和 自信 和 度 
(confidence) 来 描述 。 

支持 度 的 定义 ，support(X->Y) = |X 交 YI/N= 和 集合 X 与 集合 Y 中 的 项 在 一 条 记录 中 同时 出 现 
的 次 数 / 数 据 记录 的 个 数 。 例 如 : support({ 啤 酒 }->{ 尿 布 }) = 啤酒 和 尿布 同时 出 现 的 次 数 /数据 记 
录 数 =3/5= 60%。 

自信 和 度 的 定义 ，confidence(X->Y) = |X 交 YIX| = 集合 X 与 集合 Y 中 的 项 在 一 条 记录 中 同 
时 出 现 的 次 数 /集合 X 出 现 的 个 数 。 例 如 : confidence({ 啤 酒 }->{ 尿 布 ) = 啤酒 和 尿布 同时 出 现 
的 次 数 /啤酒 出 现 的 次 数 = 3/3 = 100%。confidence({ 尿 布 }->{ 啤 酒 }) = 啤酒 和 尿布 同时 出 现 的 次 
数 /尿布 出 现 的 次 数 =3/4=75%。 

这 里 定义 的 支持 度 和 自信 度 都 是 相对 的 支持 度 和 自信 度 ， 不 是 绝对 支持 度 ， 绝 对 支持 度 
abs_support = 数据 记录 数 N*support。 支 持 度 和 自信 度 越 高 ， 说 明 规则 越 强 ， 关 联 规则 挖掘 就 是 
挖掘 出 满足 一 定 强度 的 规则 。 

2. 关联 规则 挖掘 的 定义 与 步骤 

关联 规则 挖掘 的 定义 : 给 定 一 个 交易 数据 集 T， 找 出 其 中 所 有 支持 度 support >= 
min_support、 自 信和 度 confidence >= min_confidence 的 关联 规则 。 

有 一 个 简单 的 方法 可 以 找 出 所 需要 的 规则 ， 那 就 是 穷 举 项 集 的 所 有 组 合 ， 并 测试 每 个 组 合 是 
和 否 满 足 条 件 ， 一 个 元 素 个 数 为 n 的 项 集 的 组 合 个 数 为 2^n-1《〈 除 去 空 集 )， 所 需要 的 时 间 复 杂 度 
明显 为 O(2^N)， 对 于 普通 的 超市 ， 其 商品 的 项 集 数 在 1 万 以 上 ， 用 指数 时 间 复 杂 度 的 算法 不 能 
在 可 接受 的 时 间 内 解决 问题 。 怎 样 快速 挖 出 满足 条 件 的 关联 规则 是 关联 挖掘 的 需要 解决 的 主要 问 
题 。 仔 细 想 一 下 ， 我 们 会 发 现 对 于 {啤酒 二 尿布 }、{ 尿 布 忆 啤酒 } 这 两 个 规则 的 支持 度 实际 上 只 
需要 计算 {尿布 ， 啤 酒 } 的 支持 度 ， 即 它们 交集 的 支持 度 。 于 是 我 们 把 关联 规则 挖掘 分 两 步 进行 : 
人 Dloi 生成 频繁 项 集 : 这 一 阶段 找 出 所 有 满足 最 小 支持 度 的 项 集 ， 找 出 的 这 些 项 集 称 为 频繁 

项 集 。 
人 2 生成 规则 : 在 上 一 步 产 生 的 频繁 项 集 的 基础 上 ， 生 成 满足 最 小 自信 度 的 规则 ， 产 生 的 
规则 称 为 强 规则 。 

关联 规则 挖掘 所 花费 的 时 间 主 要 是 在 生成 频繁 项 集 上 ， 因 为 找 出 的 频繁 项 集 往往 不 会 很 多 ， 
利用 频繁 项 集 生成 规则 也 就 不 会 花 太 多 的 时 间 ， 而 生成 频繁 项 集 需 要 测试 很 多 的 备 选项 集 ， 如 果 
不 加 优化 ， 所 需 的 时 间 是 O(2^N)。 

3. Apriori 定律 

为 了 减少 频繁 项 集 的 生成 时 间 ， 我 们 应 该 尽早 地 消除 一 些 完全 不 可 能 是 频繁 项 集 的 集合 ， 
Apriori 的 两 条 定律 就 是 干 这 事 的 : 

@@ Apriori 定律 1: 如 果 一 个 集合 是 频繁 项 集 ， 则 它 的 所 有 子 集 都 是 频繁 项 集 。 举 例 : 假 

设 一 个 集合 {A,B} 是 频繁 项 集 ， 即 A、B 同时 出 现在 一 条 记录 的 次 数 大 于 等 于 最 小 支持 
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度 min_support， 则 它 的 子 集 {A}、{B} 出 现 次 数 必定 大 于 等 于 min_support， 即 它 的 子 
集 都 是 频繁 项 集 。 

@ Apriori 定律 2: 如 果 一 个 集合 不 是 频繁 项 集 ， 则 它 的 所 有 超 集 都 不 是 频繁 项 集 。 举 
例 : 假设 集合 {A} 不 是 频繁 项 集 ， 即 A 出 现 的 次 数 小 于 min_support， 则 它 的 任何 超 集 
如 {A,B} 出 现 的 次 数 必定 小 于 min_support， 因 此 其 超 集 必定 也 不 是 频繁 项 集 。 


利用 这 两 条 定律 ， 我 们 抛 掉 很 多 的 候选 项 集 ，Apriori 算法 就 是 利用 这 两 个 定理 来 实现 快速 
挖掘 频繁 项 集 的 。 


4. Aprior 算法 
Apriori 算法 是 一 个 先 验 法 ， 其 实 就 是 二 级 频繁 项 集 是 在 一 级 频繁 项 集 的 基础 上 产生 的 ， 三 


级 频繁 项 集 是 在 二 级 频繁 项 集 的 基础 上 产生 的 ， 以 此 类 推 。Apriori 算法 属于 候选 消除 算法 ， 是 
-个 生成 候选 集 、 消 除 不 满足 条 件 的 候选 集 、 并 不 断 循环 直到 不 再 产生 候选 集 的 过 程 。 


5. FpGrowth 算法 


Aprori 算法 利用 频繁 集 的 两 个 特性 ， 过 滤 了 很 多 无 关 的 集合 ， 效 率 提高 不 少 ， 但 是 我 们 发 现 
Apriori 算法 是 一 个 候选 消除 算法 ， 每 一 次 消除 都 需要 扫描 一 次 所 有 数据 记录 ， 造 成 整个 算法 在 
面临 大 数据 集 时 显得 无 能 为 力 。FpGrowth 算法 效率 就 要 比 Aprori 算法 高 很 多 。FpGrowth 算法 通 
过 构造 一 个 树 结构 来 压缩 数据 记录 ， 使 得 挖掘 频繁 项 集 只 需要 扫描 两 次 数据 记录 ， 而 且 该 算法 不 
需要 生成 候选 集合 ， 所 以 效率 会 比较 高 。 


10.5.5 “异常 值 分 析 算法 


前 面 的 四 种 算法 类 型 〈 分 类 、 预 测 、 聚 类 、 关 联 ) 是 比较 传统 和 常见 的 。 还 有 其 他 一 些 比较 
有 趣 的 算法 分 类 和 应 用 场景 ， 例 如 协同 过 滤 、 蜡 常 值 分 析 、 社 会 网 络 、 文 本 分 析 等 。 
基于 异常 值 分 析 算 法 的 一 个 案例 就 是 支付 中 的 交易 欺诈 侦 测 。 当 我 们 刷 信 用 卡 支付 时 ， 系 统 
会 实时 判断 这 笔 刷卡 行为 是 否 属于 盗 刷 。 通 过 判断 刷卡 的 时 间 、 地 点 、 商 户 名 称 、 金 额 、 频 率 等 
要 素 进 行 判断 。 这 里 面 基本 的 原理 就 是 寻找 异常 值 。 如 果 您 的 刷卡 被 判定 为 异常 ， 这 笔 交易 可 能 
会 被 终止。 
异常 值 的 判断 ， 应 该 是 基于 一 个 欺诈 规则 库 的 。 可 能 包含 两 类 规则 ， 即 事件 类 规则 和 模型 类 
规则 : 
@ 事件 类 规则 : 例如 刷卡 的 时 间 是 否 异常 (凌晨 刷卡 ) 、 刷 卡 的 地 点 是 否 异 常 ( 非 经 常 
所 在 地 刷卡 ) 、 刷 卡 的 商户 是 否 异 常 (被 列 入 黑 名 单 的 套现 商户 ) 、 刷 卡 金 额 是 否 异 
常 (是 否 偏离 正常 均值 的 三 倍 标准 差 ) 、 刷 卡 频次 是 否 异 常 (高 频密 集 刷卡 ) 。 
@ ”模型 类 规则 : 通过 算法 判定 交易 是 否 属 于 欺诈 。 一 般 通过 支付 数据 、 卖 家 数据 、 结 算 
数据 ， 构 建 模型 进行 分 类 问题 的 判断 。 


异常 检测 就 是 找 出 不 寻常 的 情况 。 如 果 已 经 知道 “异常 ”代表 什么 含义 ， 我 们 就 能 通过 监督 
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学 习 检测 出 数据 集中 的 异常 。 在 一 些 应 用 中 ， 我 们 要 能 够 找 出 以 前 从 未 见 过 的 新 型 异常 ， 如 新 欺 
诈 方 式 。 这 些 应 用 要 用 到 非 监督 学 习 技术 ， 通 过 学 习 ， 它 们 知道 什么 是 正常 输入 ， 因 此 能 够 找 出 
与 历史 数据 有 差异 的 新 数据 。 这 些 新 数据 不 一 定 是 欺诈 ， 它 们 只 是 不 同 寻常 ， 因 此 值得 我 们 做 进 


10.5.6 ”协同 过 滤 (推荐 引擎 ) 算法 


基于 协同 过 滤 的 案例 之 一 就 是 电 商 猜 你 喜欢 和 推荐 引擎 。 电 商 中 的 猜 你 喜欢 ， 应 该 是 大 家 最 
为 熟悉 的 。 在 京东 商城 或 者 亚马逊 购物 ， 总 会 有 “ 猜 你 喜欢 ”“ 根 据 您 的 浏览 历史 记录 精心 为 您 
推荐 ” “购买 此 商品 的 顾客 同时 也 购买 了 ** 商 品 ”“ 浏 览 了 该 商品 的 顾客 最 终 购买 了 ** 商 品 ”， 
这 些 都 是 推荐 引擎 运算 的 结果 。 一 般 来 说 ， 电 商 的 “ 猜 你 喜欢 ”〈 即 推荐 引擎 ) 都 是 在 协同 过 滤 
算法 〈Collaborative Filter) 的 基础 上 ， 搭 建 一 套 符合 自身 特点 的 规则 库 。 即 该 算法 会 同时 考虑 其 
他 顾客 的 选择 和 行为 ， 在 此 基础 上 搭建 产品 相似 性 矩阵 和 用 户 相 似 性 矩阵 。 基 于 此 ， 找 出 最 相似 
的 顾客 或 最 关联 的 产品 ， 从 而 完成 产品 的 推荐 。 我 们 再 举 一 个 例子 。 假 定 我 们 有 一 个 数据 集 ， 它 
记录 了 用 户 和 歌唱 家 (歌曲 ) 之 间 的 播放 信息 ， 其 中 包括 播放 的 次 数 ， 但 是 数据 集中 没有 包含 用 
户 和 歌唱 家 的 更 多 信息 。 那 么 ， 根 据 两 个 用 户 播放 过 许多 相同 歌曲 来 判断 他 们 可 能 都 喜欢 某 首 
歌 ， 这 叫做 协同 过 滤 。ALS 就 是 一 个 推荐 引擎 算法 ，Spark MLib 实现 了 ALS 算法 。 


1 0 . 6 Mahout 简介 


Mahout 起 源 于 2008 年 ， 最 初 是 Apache Lucent 的 子 项 目 ， 它 在 极 短 的 时 间 内 取得 了 长 足 的 
发 展 ， 现 在 是 Apache 的 顶级 项 目 。Mahout 的 主要 目标 是 创建 一 些 可 扩展 的 机 器 学 习 领 域 经 典 算 
法 的 实现 ， 旨 在 帮助 开发 人 员 更 加 方便 快捷 地 创建 智能 应 用 程序 。Mahout 现在 已 经 包含 了 聚 
类 、 分 类 、 推 荐 引擎 (协同 过 滤 ) 和 频繁 集 挖掘 等 广泛 使 用 的 数据 挖掘 方法 。 除 了 算法 ， 
Mahout 还 包含 数据 的 输入 /输出 工具 、 与 其 他 存储 系统 集成 等 数据 挖掘 支持 架构 。 有 兴趣 的 读 
者 ， 可 参考 网 站 https://mahout.apache.org/。 
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< 法例 分 析 : 环保 大 数据 > 


环保 行业 的 现状 是 : 监控 设备 数量 巨大 、 地 理 区 域 分 散 、 实 时 性 要 求 高 ， 各 个 环保 业务 系统 
构成 一 个 复杂 的 异 构 环境 ， 这 些 系统 之 间 的 数据 交换 和 共享 几乎 不 太 可 能 ， 与 环境 相关 的 数据 不 
全 面 、 不 准确 、 不 及 时 ， 并 缺少 对 大 量 环境 数据 的 统一 整理 ， 缺 少 对 水 体 水 源 、 大 气 、 噪 声 、 污 
染 源 、 放 射 源 、 废 气 物 等 重点 环保 监测 对 象 的 状态 、 位 置 等 信息 进行 全 方位 监控 。 

基于 这 些 分 析 ， 环 保 行业 需要 分 层 设计 的 理念 ， 分 别 在 感知 、 传 输 、 平 台 、 应 用 4 个 层面 进 
行 信息 化 建设 ， 以 环保 大 数据 管理 平台 为 核心 来 构建 和 整合 所 有 的 智慧 环保 业务 系统 ， 确 保 所 有 
环保 数据 和 所 有 环保 业务 系统 在 一 个 统一 的 大 数据 管理 平台 上 互联 互通 ， 从 而 为 环保 局 提供 一 个 
综合 的 环保 大 数据 应 用 平台 ， 并 为 下 一 步 的 环保 大 数据 分 析 葛 定 基础 。 

环保 大 数据 应 用 平台 是 以 环保 大 数据 管理 平台 为 基础 ， 构 建 环境 自动 监测 监控 服务 、 综 合 查 
询 服 务 、 统 计 分 析 服 务 、 视 频 监控 服务 、GIS 服务 、 应 急 服务 、 预 警 服务 、 电 子 政务 服务 、 运 营 
管理 、 移 动 应 用 、 信 访 投 诉 、 空 气质 量 发 布 等 环保 业务 子 系统 。 整 个 平台 集 数 据 传输 、 采 集 、 监 
控 、 数 据 统 计 、 数 据 查询 、 趋 势 分 析 、 决 策 支 持 、 环 境 质 量 评价 、 污 染 预 报 、 公 共 查 询 、 数 据 上 
报 、GIS 等 功能 为 一 体 ， 结 合 各 个 地 区 已 建成 或 将 要 建成 的 实时 监测 网 ， 通 过 长 期 、 连 续 、 实 时 
的 数据 分 析 ， 判 断 该 地 区 的 污染 现状 、 污 染 趋势 ， 评 价 污染 控制 措施 的 有 效 程度 ， 研 究 污染 对 人 
们 健康 及 对 其 他 环境 的 危害 ， 并 为 制定 空气 质量 标准 ， 验 证 污染 扩散 模式 ， 以 及 进行 污染 预报 ， 
设计 污染 源 的 预警 控制 系统 ， 制 定 经 济 有 效 的 空气 污染 治理 策略 等 提供 依据 。 


环保 大 数据 管理 平台 


大 数据 管理 平台 包含 了 环保 大 数据 建 模 平台 、 环 保 大 数据 交换 共享 平台 、 环 保 大 数据 服务 平 
台 、 环 保 大 数据 云 平台 四 个 核心 子平 台 。 环 保 相 关 的 数据 ， 如 : 环境 质量 检测 数据 、 污 染 源 数 
据 、 环 境 状况 公报 数据 、 城 市 考核 数据 、 环 境 行政 处 罚 数据 、 农 村 环境 综合 整治 数据 、 环 境 统计 
数据 、 环 境 总 量 统计 、 污 染 物 减 排 数 据 、 放 射 源 数据 、 环 保 应 急 预 案 等 都 在 这 个 大 平台 上 统一 建 
模 、 统 一 采集 和 统一 管理 。 大 数据 交换 共享 平台 是 一 个 可 动态 配置 的 环保 物 联 中 心 ， 各 类 监控 设 
备 的 数据 通过 交换 平台 进入 大 数据 平台 。 在 建 模 平 台 上 统一 定义 所 有 的 环境 数据 模型 、 环 保 业务 
流程 模型 、 访 问 控制 模型 、 存 储 模型 等 。 数 据 服务 平台 提供 了 统一 的 接口 来 访问 和 操控 平台 上 的 
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所 有 环境 数据 。 

这 个 平台 能 够 处 理 感知 层 通过 传输 层 发 送 过 来 的 海量 监测 数据 的 同时 ， 也 能 将 应 用 层 发 送 的 
反 控 指令 通过 合理 的 渠道 转发 到 感知 层 设备 上 ， 并 且 它 能 够 存储 TB 级 别 的 实时 数据 ， 根 据 实时 
数据 的 发 展 和 历史 状况 ， 构 建 环保 数据 分 析 模型 。 这 个 平台 能 兼容 原 有 系统 ， 将 原 有 的 系统 进行 
数据 和 业务 上 的 整合 。 四 个 核心 子平 台 的 功能 如 下 : 


@ ”环保 建 模 平台 


提供 数据 建 模 工具 ， 可 对 大 气 、 水 体 水 源 、 污 染 源 、 噪 声 、 固 危 废 、 油 烟 、 土 壤 等 所 有 环保 
数据 动态 建 模 ， 数 据 模型 中 包括 各 类 环保 数据 的 访问 控制 列表 、 版 本 化 管理 、 归 档 设置 、 是 否 加 
密 、 是 否 自动 启动 业务 处 理 流程 等 。 

提供 BPM 工具 ， 可 对 所 有 环保 业务 流程 统一 建 模 。 业 务 流程 包含 自动 业务 流程 和 人 工 干 预 
业务 流程 。 


@ 环保 数据 交换 共享 平台 


提供 可 配置 的 采集 规则 、 异 构 数据 源 连接 器 、 采 集 服务 和 采集 管理 控制 台 ， 实 现 了 从 多 种 异 
构 系 统 和 各 类 环保 设备 上 自动 采集 环保 相关 数据 。 这 些 异 构 系 统 包括 国家 环保 部 和 省 环保 厅 下 发 
的 环保 系统 ， 市 环保 局 现 有 的 和 未 来 要 部 署 的 环保 系统 ， 也 包括 与 环保 相关 联 的 气象 和 交通 等 部 
门 的 信息 系统 。 环 保 设备 包括 空气 自动 站 、 水 站 、 污 染 源 监 测 点 位 、 噪 声 监 测 点 位 等 相关 设备 发 
送 的 数据 。 


@ 环保 大 数据 云 平 台 


海量 存储 市 环保 局 历年 来 的 环保 数据 和 未 来 新 增 数据 ， 支 持 单个 表单 可 存储 千 亿 行 环保 数 
据 ， 总 量 PB 级 别 。 海 量 环保 数据 的 查询 速度 在 毫秒 级 别 。 提 供 了 粒度 到 行 和 列 的 数据 访问 控 
制 ， 支 持 多 主 节 点 多 分 节点 的 架构 ， 横 向 可 扩展 至 上 百 台 节点 〈 服 务 器 )。 


@ 环保 大 数据 服务 平台 


提供 统一 的 接口 和 逻辑 数据 结构 来 访问 和 操控 平台 上 所 有 环境 数据 ， 为 环保 数据 的 离线 和 在 
线 分 析 和 挖掘 提供 基于 Hive 和 Spark 的 服务 接口 。 提 供 对 环境 数据 的 申请 、 审 批 和 接口 开放 等 
数据 服务 功能 。 预 留 与 智慧 城市 大 平台 的 接口 ， 支 持 动态 部 署 新 的 数据 处 理 和 分 析 应 用 。 


1 .2 环保 大 数据 应 用 平台 


环保 大 数据 应 用 平台 是 以 环保 大 数据 管理 平台 为 基础 ， 构 建 环境 自动 监测 监控 服务 、 综 合 查 
询 服务 、 统 计 分 析 服 务 、 视 频 监控 服务 、GIS 服务 、 应 急 服 务 、 预 警 服 务 、 电 子 政务 服务 、 运 营 
管理 服务 、 移 动 应 用 服务 、 信 访 投诉 服务 、 空 气质 量 发 布 服务 等 环保 业务 子 系统 。 
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11.2.1 ”环境 自动 监测 监控 服务 


对 所 有 污染 源 、 环 境 质量 监测 点 进行 监控 ， 实 现 对 所 有 环境 监测 数据 的 全 方位 接 入 、 组 织 、 
存储 、 管 理 和 使 用 。 以 污染 源 监控 为 例 ， 当 污染 源 监 测 监控 数据 被 采集 到 大 数据 平台 之 后 ， 如 下 
的 污染 源 监控 服务 就 开始 监控 : 


1. 污染 源 总 体 监控 信息 
以 列表 的 形式 显示 所 有 监测 点 的 通信 状况 在线、 下 线 )、 排 放 状况 正常 、 异 常 )、 视 频 、 


基本 信息 、 在 线 时间 ( 当 前、 累积 )、 最 新 监测 数据 (数据 超标 变色 )、 污 染 源 在 线 状况 统计 ， 按 
国 控 、 省 控 、 市 控 对 污染 源 进行 分 类 。 
2. 污染 源 实时 数据 监测 


对 污染 源 监 测 数 据 进 行 实 时 监测 ， 显 示 污染 物 浓度 、 流 量 实时 曲线 ， 实 时 表格 ， 可 单 画 面 、 
多 画面 显示 。 可 对 多 个 监测 点 的 数据 进行 对 比 检测 ， 显 示 界 面 集成 GIS 和 实时 数据 。 

3. 治理 设施 过 程 监控 

治理 设施 运行 情况 监测 是 通过 实时 采集 和 处 理 各 种 污染 源 在 线 监测 仪表 、 治 理 设施 和 排污 设 
各 的 关键 参数 ， 监 测 治理 设施 的 运行 状况 和 净化 效果 。 关 键 参数 包含 电气 参数 〈 如 电压 、 电 流 、 
频率 参数 )、 工 艺 参数 〈 物 位 、 流 量 、 压 力 等 )。 在 设备 上 采用 可 靠 的 现场 控制 系统 ， 监 控 治 理 设 
施 的 运行 处 理 情况 ， 同 时 ， 通 过 工厂 总 能 源流 转 情况 ， 在 生产 量 估算 的 情况 下 ， 测 算出 污染 排放 
量 ， 以 及 应 达到 的 净化 指标 ， 结 合 污染 指标 测算 分 析 其 综合 治理 情况 ， 全 面 监测 企业 治理 设施 运 
行 、 污 染 物 治理 效果 和 排放 量 情况 。 

4. 噪声 监控 

在 区 域内 的 主要 交通 要 道 、 学 校 、 商 业 区 和 人 口 集中 区 域 设置 噪声 自动 监测 和 显示 设备 ， 对 
环境 噪声 进行 24X7 小 时 全 天 候 实时 监测 ， 并 通过 电子 显示 屏 向 社会 发 布 监测 结果 。 市 民 可 以 
随时 看 到 自己 居住 附近 或 者 途经 交通 干道 的 噪声 分 贝 ， 直观 了 解 噪声 污染 情况 ， 各 个 测 点 的 监测 
数据 实时 地 传 到 数据 中 心 ， 环 保 局 用 户 可 以 对 分 布 在 区 域内 的 各 测 点 的 数据 进行 实时 监测 ， 及 
时 、 准 确 地 掌握 噪声 现状 ， 分析 其 变化 趋势 和 规律 ， 了 解 各 类 噪声 源 的 污染 程度 和 范围 ， 为 城市 
噪声 管理 、 治 理 和 科学 研究 提供 系统 的 监测 资料 。 


5. 危险 废物 安全 监控 


利用 RFID 技术 实现 联 单 自动 化 处 理 。 当 危险 废物 运 达 处 置 单位 时 ，RFID 射频 识别 设备 通 
过 发 射 信号 自动 识别 目标 对 象 〈 贴 有 RFID 标签 的 危 废 ) 并 获取 相关 数据 (RFID 变迁 存储 的 联 
单 信息 )。 在 读 取 到 电子 联 单 信息 后 ， 通 过 固 废 危 废 管理 服务 自动 写 入 危 废 的 种 类 名 称 、 数 量 、 
产 废 单位 、 运 输 单位 、 承 运 人 、 运 输 起 始 时间 、 到 达 处 置 单位 时 间 ， 和 危 废 处 理 方式 等 信息 ， 并 发 
送 到 相关 负责 人 处 审批 。 

运输 监控 管理 服务 主要 结合 运输 车 的 GPS 系统 ， 对 和 危 废 固 废 的 运输 路 程 、 路 线 进 行 监控 ， 
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确保 危 废 固 废 运输 安全 ， 不 影响 其 他 地 区 。 运 输 车 辆 路 线 与 原 定 路 线 出 现 偏差 以 后 ， 系 统 将 产生 
报警 信息 。 点 击 出 现 报警 情况 的 运输 车 辆 ， 可 以 查看 报警 的 详细 信息 。 


6. 辐射 监控 


对 各 种 辐射 源 进行 数据 指标 的 采样 与 收集 。 采 集 接 入 的 辐射 源 监测 点 包括 : 环境 自动 监测 
点 、 贡 类 以 上 工业 放射 源 、 城 市 放射 性 废物 库 、 辐 射 环 境 监测 标准 子 站 。 传 输 层 把 监测 数据 上 传 
到 数据 中 心 。 辐 射 安 全 监管 服务 完成 对 辐射 源 数据 的 处 理 和 分 析 。 

7. 报警 监控 

污染 源 报警 监控 服务 包含 : 

@ ”报警 查询 : 按 类 型 快速 查询 报警 信息 ， 报 警 类 型 分 为 超标 报警 、 数 采 仪 掉 线 报警 ， 超 
标 报警 可 联动 查看 报警 的 视频 图 像 或 抓 图 。 报 警 内 容 包 括 污染 源 名 称 、 监 测 点 名 称 、 
报警 值 、 标 准 值 、 流 量 值 、 报 警 描述 。 查 询 条 件 包 括 时 间 、 流 量 ， 并 可 以 导出 报警 信 
息 。 

@ ”报警 统计 : 统计 一 个 企业 或 监测 点 一 段 时 间 内 报警 次 数 和 报警 持续 时 间 ， 并 对 报警 次 
数 和 时 间 进 行 排序 。 

@ ”报警 处 理 : 针对 具体 的 某 一 条 报警 信息 进行 处 理 ， 并 给 出 处 置 意见 。 

@ ”报效 设置 设置 报警 上 下 限 ， 异 常 值 上 下 限 ， 数 采 仪 掉 线 时 间 间 隔 报警 设置 。 报 警 的 
数据 类 型 可 根据 用 户 需求 进行 灵活 设置 ， 包 括 小 时 数据 、 分 钟 数 据 、 实 时 数据 、 日 数 
据 。 

@ 报警 方式 设置 : 设置 报警 方式 ( 短信、 邮件 、 网 页 弹 窗 提示 、 上 声音 ) 、 报 警 通知 人 、 
通知 时 间 、 是 否 启 用 报警 ; 对 报警 处 置 配置 模块 中 的 通知 人 ， 处 理 人 按 科室 进行 分 
组 。 超 标 报警 发 给 企业 负责 人 ， 数 采 仪 掉 线 报警 发 给 运 维 单位 相关 人 员 。 

@。 送 达 报告 : 查看 报警 短信 的 送 达 情况 报告 。 

8. 在 线 没 备 监控 

@ ”实时 地 监控 系统 的 各 个 设备 和 系统 点 的 使 用 情况 ， 及 时 地 获知 设备 和 系统 的 故障 点 。 
对 设备 的 联网 率 、 设 备 运行 时 间 、 排 放 状 况 、 点 位 个 数 进行 实时 统计 ， 反 映 设备 整体 
的 运行 状况 。 

@ 根据 用 户 选择 不 同 的 排 口 ， 在 界面 上 通过 流程 图 和 数据 结合 的 方式 显示 出 该 测 点 设备 
在 一 天 之 中 的 运行 时 间 、 设 备 运 行 状况 及 实时 数据 。 

@ ”除了 监控 管理 之 外 ， 还 包括 故障 管理 、 性 能 管理 、 安 全 管理 和 基础 维护 管理 。 


9. GPS 监控 服务 


通过 GPS， 可 以 对 收 运 车 辆 路 线 提供 实时 追踪 服务 。 车 载 终端 的 GPS 模块 实时 接收 全 球 定 
位 卫星 的 位 置 、 时 间 等 数据 ， 一 方面 发 送 车 内 的 监控 系统 ， 得 到 车 辆 的 当前 位 置 并 且 在 电子 地 图 
上 显示 ; 另 一 方面 ， 数 据 将 通过 GPRS 终端 模块 发 送 到 远程 监控 中 心服 务 器 上 的 大 数据 平台 ， 
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使 得 监控 中 心 实时 得 到 所 有 车 辆 的 位 置信 息 ， 给 车 辆 的 安全 监控 提供 了 基础 。 

10. 综合 监控 服务 

比如 ， 在 大 气 监 控 中 ， 运 用 物 联网 技术 建立 全 空间 (高 空 、 近 地 和 地 面 ) 全 天 候 的 三 维 大 气 
监测 体系 ， 全 面 说 清 污染 源 状况 及 环境 质量 状况 ， 全 面 跟踪 工厂 等 主要 污染 源 污染 排放 ， 及 时 掌 
握 污 染 源 状况 以 及 实现 污染 源 对 污染 浓度 影响 的 技术 分 析 ， 为 大 气 污染 应 急 提 供 决策 手段 ， 还 可 
为 大 气 污染 防治 措施 、 政 策 、 标 准 等 实施 可 能 产生 的 效果 进行 科学 评价 ， 从 而 为 大 气 环 境 管理 提 
供 科 学 决策 能 力 。 


11.2.2 ”综合 查询 服务 


综合 查询 服务 包括 多 个 方面 。 查 询 结果 可 导出 到 Excel、PDF 等 格式 的 文档 中 。 导 出 的 报表 
抬头 显示 企业 或 监测 点 位 名 称 。 


1. 环境 信息 查询 
按 需 实时 查询 其 所 关注 的 环境 信息 ， 例 如 


重点 污染 源 地 理 位 置 及 其 基本 信息 和 相关 环境 信息 。 

某 个 区 域内 每 日 的 空气 污染 指数 。 

某 个 区 域内 各 类 河流 断面 、 湖 库 水 质 自动 监测 点 等 数据 。 
某 个 区 域内 空气 质量 自动 监测 站 数据 。 

某 个 区 域内 饮用 水 源 地 保护 区 分 布 与 保护 范围 。 

自然 保护 区 分 布 与 保护 内 容 。 


通过 与 地 理 信息 系统 〈GIS) 的 集成 ， 可 定位 各 类 环境 管理 对 象 的 地 理 位 置 ， 并 可 进行 导 
航 。 另 外 ， 环 保 人 员 都 可 以 通过 移动 智能 终端 进行 查询 。 
2. 污染 源 数据 查询 


查询 废气 、 污 水 流量 、 污 染 物 浓度 数据 。 数 据 类 型 分 为 实时 数据 、 十 分 钟 数据 、 小 时 数据 、 
日 数据 。 有 时 也 需要 完成 综合 查询 ， 比 如 : 按 国 控 、 省 控 、 市 控 ， 日 期 查询 整个 地 区 或 行业 的 废 
水 、 废 气 及 污染 物 的 排放 量 。 


11.2.3 ”统计 分 析 服 务 


按 环 境 要 素 、 业 务 功能 需求 分 项 统计 各 类 报表 内 容 ， 并 对 环境 监测 审核 后 的 数据 统计 分 析 ， 
生成 Excel、PDF 报表 。 还 能 够 生成 各 类 统计 生产 的 季 、 月 报表 ， 对 保存 的 季 、 月 报表 按 用 户 需 
求 再 次 统计 。 

在 统计 过 程 中 ， 必 然 有 一 些 判断 的 标准 。 若 一 个 废水 企业 有 多 个 排污 口 ， 可 计算 这 几 个 企业 
排污 口 的 污染 物 的 平均 值 ， 并 判断 平均 值 是 否 达标 ; 若是 这 个 企业 的 多 个 排污 口中 有 一 个 排污 口 
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超标 ， 就 判断 该 企业 废水 超标 。 若 一 个 废气 企业 有 多 个 排污 口 ， 计 算 这 几 个 企业 排污 口 的 污染 物 
的 平均 值 ， 并 判断 平均 值 是 否 达标 ; 在 多 个 排污 口中 只 要 一 个 排污 口 超标 ， 就 判断 该 企业 废气 超 
标 。 若 一 个 企业 既 有 废水 排放 口 又 有 废气 排污 口 ， 则 按照 上 面 的 功能 要 求 分 别 计算 废水 和 废气 的 
企业 超标 情况 ， 并 且 如 果 废 水 和 废气 有 一 个 排污 口 超标 ， 则 判断 该 企业 超标 。 

除了 常用 的 统计 报表 之 外 ， 还 包括 : 


@ ”水 环境 质量 统计 报告 : 对 主要 河流 ， 主 要 水 库 与 湖泊 、 地 下 水 质量 进行 汇总 统计 。 

@ ”空气 质量 报告 : 包括 按 区 域 、 污 染指 数 、 首 要 污染 物 、 质 量 级 别 统计 空气 质量 状况 。 

@ ”辐射 环境 质量 分 析 报 告 : 根据 辐射 监测 数据 进行 汇总 统计 分 析 ， 反 应 辐射 环境 质量 
情况 。 


统计 报表 中 包含 单 点 及 多 个 测 点 监测 数据 平均 值 计算 ， 主 要 包括 日 、 月 、 年 平均 值 计算 : 


@ ”统计 区 域 范围 内 监测 数据 最 大 值 、 最 小 值 。 

@ ”统计 计算 多 个 监测 数据 的 标准 差 。 

@ 同期 数据 比较 : 对 监测 数据 进行 历史 同期 对 比 ， 以 列表 和 对 比 图 两 种 形式 展示 ， 进 行 
辐射 环境 变化 的 趋势 分 析 。 

@ ”基准 值 比较 : 把 监测 数据 与 选 定 或 输入 的 基准 值 进行 比较 ， 反 映 环境 的 优 劣 。 

@。 变化 率 计 算 : 计算 监测 数据 的 月 和 年 变化 率 。 

@ 自动 监测 与 人 工 监测 数据 比较 : 设置 人 工 监测 数据 输入 接口 ， 在 同一 图 表 中 绘制 自动 
监测 结果 与 人 工 监测 结果 。 

@ ”监测 结果 与 本 地 对 照 分 析 : 以 列表 和 统计 图 两 种 方式 展现 监测 数据 与 本 地 对 照 结果 
并 可 对 应 显示 在 环境 地 理 信 息 系统 的 电子 地 图 上 。 


我 们 提供 了 多 种 分 析 服 务 。 比 如 : 环境 质量 分 析 。 环 境 质量 分 析 是 利用 现 有 环境 监测 数据 ， 
结合 环境 评估 模型 对 环境 质量 进行 分 析 ， 环 境 质量 包括 水 环境 质量 、 空 气质 量 、 声 环境 质量 、 辐 
射 环境 等 。 环 境 质量 分 析 需 要 对 各 项 环境 进行 独立 分 析 ， 获 取 各 区 域 的 各 类 环境 要 素质 量 状况 ， 
为 环境 相关 规定 决策 提供 直接 依据 。 


1. 水 环境 质量 分 析 

利用 各 项 监测 数据 实现 对 水 环境 质量 进行 分 析 ， 包 括 : 河流 、 湖 泊 、 水 库 、 饮 用 水 源 地 等 水 
环境 质量 的 监测 和 环境 质量 变化 情况 之 间 的 关系 进行 分 析 。 通 过 一 定 的 数理 方法 与 手段 ， 对 某 一 
水 环境 区 域 进行 环境 要 素 分 析 ， 对 其 做 出 定量 描述 通过 水 环境 质量 评价 ， 摸 清 区 域 水 环境 质量 发 
展 趋 势 及 其 变化 规律 ， 为 区 域 环境 系统 的 污染 控制 规划 及 区 域 环 境 系统 工程 方案 的 定制 提供 依 
据 。 水 环境 质量 分 析 内 容 包 括 : 水 环境 质量 现状 评估 《根据 各 项 监测 数据 对 水 环境 质量 现状 进行 
评估 )， 计 算 各 大 水 系 流域 的 水 质 类 别 并 进行 分 布 评估 和 分 布 对 比 ， 为 环境 质量 的 治理 改善 提供 
依据 。 
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2. 空气 质量 分 析 


利用 各 项 监测 数据 ， 分 析 计 算 区 域内 总 体 大 气 环境 空气 质量 ， 以 图 和 数据 列表 相 结合 的 方式 
进行 直观 表达 。 可 自动 计算 各 区 域 的 API 指数 ， 并 分 析 API 指数 与 污染 因子 之 间 的 关系 。 


11.2.4 _GIS 服务 


实现 各 项 环境 业务 数据 和 实际 地 理 信息 的 有 效 结合 和 关联 ， 可 根据 需要 输出 各 种 专题 图 ， 
如 : 污染 源 分 布 图 、 大 气质 量 功能 区 划 图 等 。 环 境地 理 信息 服务 是 为 平台 的 各 个 业务 提高 地 图 服 
务 和 空间 分 析 能 力 。 在 地 图 上 能 大 致 了 解 检测 站 点 的 位 置 时 ， 可 以 通过 地 图 放大 功能 将 地 图 放大 
到 监测 站 点 的 大 致 位 置 上 ， 然 后 通过 地 图 添加 监测 站 点 功能 直接 在 地 图 上 将 监测 站 点 信息 添加 到 
环保 大 数据 平台 上 。 我 们 提供 了 选择 增加 监测 站 点 功能 ， 可 以 将 检测 站 点 经 纬度 输入 到 监测 站 点 
信息 内 ， 系 统 自动 定位 监测 站 点 到 地 图 上 ， 或 者 将 地 图 放大 到 监测 站 点 大 致 位 置 ， 点 击 将 监测 站 
点 定位 到 地 图 上 。 

空间 数据 服务 包括 二 部 分 : 


@ 空间 数据 管理 : 实现 空间 数据 采集 、 编 辑 、 入 库 、 更 新 及 存储 和 管理 。 
@ GIS 服务 管理 : 负责 对 空间 数据 资源 、 服 务 资源 、 接 口 资源 的 注册 、 发 布 、 目 录 、 安 
全 进行 管理 。 


在 GIS 服务 上 ， 它 不 仅 可 以 向 用 户 输出 全 要 素 地 形 图 ， 而 且 可 以 根据 用 户 需要 分 层 输 出 各 
种 专题 图 ， 如 污染 源 分 布 图 、 大 气质 量 功能 区 划 图 等 等 。 在 进行 自然 生态 现状 分 析 过 程 中 ， 利 用 
GIS 可 以 比较 精确 地 计算 水 土 流失 、 芒 漠 化 、 森 林 砍 伐 面积 等 ， 客 观 地 评价 生态 破坏 程度 和 波及 
的 范围 ， 为 各 级 政府 进行 生态 环境 综合 治理 提供 科学 依据 。 在 环境 影响 评价 时 ， 对 所 有 的 改 、 
扩 、 建 项 目 可 能 产生 的 环境 影响 进行 预测 评价 ， 并 提供 防止 和 减缓 这 种 影响 的 对 策 与 措施 。 利 用 
GIS 的 空间 分 析 服务 ， 可 以 综合 性 地 分 析 建 设 项 目 各 种 数据 ， 帮 助 确立 环境 影响 评价 模型 。 利 用 
GIS 还 可 以 更 加 明确 地 揭示 不 同 区 域 的 水 环境 状况 ， 反 映 水 体 环境 质量 在 空间 上 的 变化 趋势 。 可 
以 更 加 直观 地 反映 如 污染 源 、 排 污 口 、 监 测 断 面 等 环境 要 素 的 空间 分 布 。 利 用 GIS 还 可 以 进行 
污染 源 预测 、 水 质 预测 、 水 环境 容量 计算 、 污 染 物 消减 量 的 分 配 等 ， 以 表格 和 图 形 的 方式 为 水 环 
境 管理 决策 提供 多 方位 、 多 形式 的 支持 。 


11.2.5 ”视频 服务 
视频 监控 服务 与 污染 源 实时 数据 进行 整合 ， 在 显示 监测 站 点 的 视频 图 像 的 同时 显示 该 站 点 的 


监测 数据 。 
视频 监控 对 危险 流动 源 的 收取 运输 处 理 的 各 个 关键 环节 进行 有 效 的 实时 监控 ， 以 确保 对 危险 
流动 源 收 运 过 程 的 可 视 化 的 监控 。 
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11.2.6 ”预警 服务 


通过 物 联网 的 监测 信息 ， 结 合 水 环境 、 大 气 环境 模拟 模型 ， 进 行 水 、 大 气 环境 污染 事故 的 预 
警 分 析 。 按 预警 源 分 为 自动 监测 预警 服务 和 人 工 预 警 服务 。 自 动 监测 预警 主要 是 从 测控 体系 的 子 
系统 提取 预警 事件 进行 处 理 。 人 人工 预 警 监测 主要 从 若干 人 工 预警 监测 站 点 获取 预警 信息 ， 系 统 提 
供 这 些 人 工 监测 站 点 数据 录入 、 统 计 、 分 析 功 能 。 人 工 监测 数据 与 自动 监测 数据 一 并 进入 预警 系 
统 。 当 与 之 有 关 的 区 域 将 要 发 生 事故 时 ， 能 提前 发 出 预 符 ， 以 便 及 时 采取 措施 ， 防 止 事故 的 发 
生 。 

按照 预警 对 象 ， 分 为 


@ 水源 水 质 预警 

采用 连续 测定 的 仪器 进行 检测 ， 运 用 GIS 平台 进行 数据 处 理 预测 预报 ， 一 旦 发 现 水 质问 
题 ， 向 相关 部 门 发 送 预 警报 告 及 相关 处 理 方案 ， 使 得 污染 水 体能 够 及 时 得 到 解决 。 

@ ”空气 质量 预警 


利用 污染 源 在 线 监测 和 空气 质量 在 线 监 测 ， 结 合 空气 质量 模型 进行 空气 质量 预警 ， 并 向 相关 
环境 管理 人 员 进 行 汇报 。 

按照 服务 的 方式 ， 预 警 服务 分 为 : 

@ 预警 发 布 


当 系 统 收 到 紧急 预警 或 重要 预警 ， 管 理 员 可 以 手工 发 布 到 预先 设 定 的 管理 人 员 ， 发 布 方 式 有 
短信 、 网 站 公告 等 。 

@ ”预警 更 改 与 解除 

管理 人 员 确 认 预 警 后 ， 可 以 更 改 预 警 或 解除 预警 。 

@ 预警 查询 


提供 预警 浏览 界面 ， 显 示 预 警 来 源 、 时 间 、 预 警 级 别 、 预 警 内 容 等 。 查 询 功 能 提供 查询 界 
面 ， 可 以 根据 预警 来 源 、 时 间 、 级 别 等 查询 条 件 查询 相应 预警 。 


@ ”预警 指标 管理 

提供 预警 指标 库 的 维护 ， 包 括 新 增 预警 、 修 改 、 删 除 、 预 警 下 发 。 
@ ”预警 分 级 核定 

提供 预警 分 级 核定 功能 。 
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11.2.7 ”应 急 服务 


应 急 服务 的 最 终 目 标 是 : 构建 环境 质量 预测 及 环境 污染 事故 应 急 管 理 服务 框架 ， 加 强 环境 污 
染 应 急 处 置 及 预案 管理 ， 提 升 应 急 反 应 和 处 置 能 力 ， 对 发 生 的 环境 事故 ， 实 现 应 急 资源 的 调度 和 
管理 。 应 急 服 务 包 括 突 发 事件 应 急 处 置 指挥 服务 和 环境 安全 应 急 指 挥 联动 服务 等 。 

我 们 通过 “事件 ”来 管理 突 发 事故 。 对 整个 事件 从 产生 、 应 急 到 处 置 进行 闭环 管理 。 减 少 管 
理 的 盲目 性 ， 提 高 监管 效率 。 事 件 管理 服务 主要 有 如 下 功能 : 


事件 分 类 管理 
事件 处 理 
事件 分 析 
事件 归档 
事件 浏览 
事件 管理 


除了 事件 服务 之 外 ， 还 有 如 下 服务 : 

1. 应 急 物 资 管理 

针对 可 能 出 现 的 各 种 应 急事 故 ， 对 区 域内 各 个 地 方 存储 应 急 物 资 如 : 灭火 器 、 盐 酸 、 消 防 
栓 、 防 毒 面具 进行 统一 管理 。 该 服务 详细 描述 了 物资 的 用 途 、 数 量 、 存 储 地 、 负 责 人 及 联系 方 
式 ， 当 出 现 应 急事 故 时 ， 指 挥 人 员 能 及 时 调动 相应 物资 处 理 。 

2. 专家 库 管 理 

专家 库 将 专家 按照 专业 、 类 别 进 行 分 类 ， 并 将 该 专家 的 单位 、 电 话 联 系 方式 留 档 ， 当 出 现 应 
急事 故 时 ， 指 挥 人 员 能 够 在 第 一 时 间 与 专家 进行 联系 ， 保 证 事故 能 够 得 到 科学 合理 的 处 置 。 

3. 应 急 预案 管理 

应 急 预 案 分 为 环保 局 预案 、 检 查 预案 、 辐 射 预 案 、 危 管 预 案 等 。 环 保 局 预案 可 以 分 为 总 则 、 
组 织 机 构 与 职责 、 应 急 处 置 、 应 急 保 障 、 应 急 通信 联络 、 应 急 终 止 。 用 户 可 以 详细 地 查询 各 个 步 
又 的 详细 内 容 ， 检查 预案 可 以 分 为 总 则 、 分 队 编 成 和 职责 、 各 种 保障 、 环 境 监 察 应 急 工作 程序 。 
用 户 可 详细 查询 每 个 步骤 的 详细 内 容 ; 辐射 预案 包括 应 急 分 队 编 成 、 应 急 启 动 、 开 进 、 现 场 器 材 
开展 与 监测 、 应 急 措 施 。 用 户 可 以 详细 查询 每 个 步骤 的 详细 内 容 。 

4. 应 急 档案 管理 

档案 管理 将 整个 环境 突 发 事故 从 发 生 到 应 急 监 测 、 处 置 的 全 过 程 记录 进 环保 大 数据 平台 。 信 
息 至 少 应 该 包括 环境 事故 的 类 型 、 发 生地 、 处 理 方法 、 所 用 处 理 物资 、 影 响 范围 等 。 

5. 应 急 报告 

根据 事故 现场 提交 的 人 工 监测 数据 以 及 整个 时 间 的 处 理 过 程 ， 系 统 能 够 自动 生成 环境 事故 处 
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理 评估 报告 ， 报 告 既 可 以 根据 人 工 监测 数据 对 事故 进行 定量 分 析 ， 又 可 以 根据 事故 的 影响 范围 、 
影响 人 群 以 及 相应 的 定量 分 析 结 果 做 出 定性 的 分 析 。 


6. 环境 评估 


损益 评估 利用 环境 突 发 事故 模型 ， 根 据 事故 的 类 型 、 污 染 类 型 、 事 故 持续 的 时 间 按 照 既定 的 
模型 对 环境 事故 造成 的 损失 进行 初步 评估 。 


11.2.8 ”电子 政务 服务 


电子 政务 服务 中 心 集成 环保 OA、 总 量 减 排 、 项 目 审批 、 污 染 源 管理 、 许 可 证 管理 、 现 场 执 
法 、 环 境 监 察 业务 、 行 政 处 罚 、 固 废 和 和 危 废 转移 、 核 与 辐射 管理 、 环 境 信访 、 综 合 办 公 等 多 个 业 
务 ， 通 过 专用 的 工作 流 引 擎 ， 将 环保 局 相关 业务 以 任务 的 形式 驱动 ， 实 现 对 业务 办 理 进行 跟踪 、 
督办 及 考核 的 一 体 化 业务 管理 。 系 统 使 得 污染 源 从 产生 开始 ， 自 动 将 相关 信息 转 后 续 监管 部 门 共 
享 ， 并 且 后 续 的 信息 自动 归 聚 到 同一 污染 源 ， 随 时 动态 反映 污染 源 状况 ; 同时 加 强 环境 质量 数据 
管理 ， 在 污染 源 排污 状况 与 环境 质量 状况 之 间 建 立 联系 ， 从 而 达到 通过 对 点 源 的 管理 改善 宏观 环 
境 质量 的 目标 。 


1. 总 量 减 排 服务 
总 量 减 排 服务 主要 包括 环境 容量 分 析 、 减 排 电 子 台 账 、 总 量 核算 、 总 量 统计 与 分 析 以 及 减 排 
文件 管理 4 部 分 内 容 。 


电子 台 账 的 主要 内 容 包括 城市 污水 处 理 厂 、 企 事业 单位 工业 废水 治理 工程 ( 含 清 洁 生 产 、 中 
水 回 用 等 )、 产 业 结 构 调 整 ( 关 停 的 废水 或 废气 排放 企业 )、 燃 煤 电 厂 脱硫 工程 、 非 电 企业 二 氧化 
硫 脱硫 工程 、 产 业 结 构 调 整 ( 关 停 小 火电 机 组 )、 油 改 气 工程 目录 等 相关 数据 的 采集 及 相关 文 
件 、 企 业 照 片 的 上 传 。 

总 量 核算 包括 COD、 氨 氨 、S0、NOx 的 历年 完成 减 排 量 、 十 三 五 任务 量 、 完 成 年 任务 比 
例 、 完 成 十 三 五 任务 比例 相关 数据 采集 及 核算 。 

总 量 统计 及 分 析 显 示 各 个 指标 的 历史 数据 变化 曲线 、 计 算 公 式 ， 同 时 能 够 统计 出 环 统 数 据 和 
根据 监测 得 出 的 监测 数据 ， 同 核算 总 量 形成 对 比 和 分 析 ， 并 进行 形象 、 直 观 地 展示 。 


2. 建设 项 目 管理 服务 


建设 项 目 管理 服务 包括 网 上 申报 及 审批 管理 、 环 境 影响 评价 管理 、 环 保 “ 三 同时 ”验收 管 
理 、 建 设 项 目 审批 管理 和 总 量 控制 管理 等 。 

网 上 申报 及 审批 管理 : 包括 网 上 咨询 、 企 业 网 上 申报 、 环 评 单位 网 上 申报 、 评 估 中 心 评估 、 
网 上 资料 核实 、 转 网 下 处 理 、 项 目 核实 及 批文 发 放 、 环 评 单位 管理 等 内 容 组 成 。 

环境 影响 评价 管理 .按照 环境 影响 评价 法 的 规定 ， 对 项 目的 环境 影响 评价 大 纲 进行 管理 ， 对 
环评 的 各 项 数据 进行 复核 和 管理 ， 对 环评 实 陈 结果 进行 评估 。 

建设 项 目 审批 管理 : 包括 建设 项 目 审批 、 建 设 项 目 试 生产 以 及 建设 项 目 验收 管理 等 内 容 。 
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总 量 控制 管理 : 在 建设 项 目 审批 以 及 建设 项 目 验收 管理 过 程 中 对 于 总 量 指标 进行 批复 ， 并 且 
与 总 量 减 排 管理 系统 进行 集成 管理 。 

3. 排污 许可 证 管理 服务 

排污 许可 证 管理 基于 总 量 控制 管理 ， 建 立 一 个 工业 污染 源 基本 情况 库 ， 录 入 现 有 排污 许可 证 
的 污染 源 基本 情况 数据 ， 获 取 污 染 源 基本 数据 ， 系 统 功能 包括 建立 工业 污染 源 及 申报 、 排 放 数据 
库 ， 对 已 发 许可 证 按 区 域 、 流 域 等 对 污染 物 总 量 进行 统计 ， 对 新 发 许可 证 进行 总 量 分 析 评估 ， 为 
控制 和 削减 污染 提供 依据 。 排 污 许可 证 管理 主要 包括 排污 许可 证 发 放 管理 、 排 污 许可 证 换 证 、 排 
污 许可 证 注销 、 排 污 许 可 证 年 审 、 排 污 许可 证 企业 监督 管理 等 。 

4. 污 沼 厌 档案 管理 服务 

一 个 典型 的 污染 源 ， 其 生命 周期 分 三 个 部 分 : 污染 源 产 生 、 污 染 源 日 常 管理 〈 许 可 、 执 法 、 


收费 、 处 罚 等 )、 污 染 源 的 注销 。 污 染 源 档案 管理 服务 主要 是 基于 污染 源 的 全 生命 周期 的 变化 ， 
对 全 局 范围 内 的 污染 源 进行 集中 管理 的 系统 。 


5. 行政 处 罚 管理 服务 
行政 处 罚 管理 服务 包括 调查 取证 、 立 案 管理 、 案 件 受理 、 行 政 处 罚 告知 、 申 辩 管理 、 听 证 告 


知 管理 、 听 证 通知 管理 、 听 证 笔录 及 听证 报告 、 审 议 管理 、 行 政 处 罚 决定 、 行 政 处 罚 跟踪 管理 、 
案件 执行 情况 管理 、 案 件 复议 及 诉讼 、 配 合 强制 执行 、 结 案 等 。 


6. 环境 信访 管理 


信访 投诉 管理 包括 : 电话 投诉 登记 台 、 环 保 信访 登记 台 、 任 务 办 理 台 、 投 诉 调查 处 理 、 复 
函 、 转 办 函 、 环 保 信访 查询 库 、 投 诉 详情 查看 、 查 询 统计 等 。 

任务 办 理 台 集中 环保 投诉 各 业务 处 理 于 一 身 ， 专 门 用 来 各 业务 员 在 其 中 处 理 各 类 业务 ， 包 括 
环保 投诉 调查 处 理 、 领 导 的 审核 及 签 批 、 环 保 投 诉 登 记 表 的 打印 、 任 务 办 理 轨迹 查看 等 。 

民众 可 在 环保 网 站 、 微 信和 手机 客户 端 完 成 投诉 信息 登记 ， 投 诉 信息 基于 大 数据 平台 分 级 分 
层 流转 处 理 。 

7. 排污 收费 服务 

根据 标准 的 排污 收费 流程 运转 ， 实 现 了 日 常 工作 流程 化 、 具 体 工 作 电子 化 。 

8. 综合 办 公 中 心 

在 整合 环保 局 现 有 的 办 公 系 统 平台 功能 基础 上 ， 建 设 一 套 符 合 国家 有 关 规 定 和 标准 、 符 合 环 
保 局 自身 业务 特点 的 综合 办 公 系 统 。 通 过 使 用 先进 的 信息 技术 ， 实 现 局 内 行政 工作 流程 化 定制 与 
管理 ， 减 轻 工 作 人 员 的 工作 强度 ， 减 少 工作 人 员 的 无 效 工 作 ， 提 高 工作 人 员 的 工作 效率 ， 提 高 行 
政工 作 的 成 效 。 

综合 办 公 系 统 在 局 机 关 、 下 属 单位 之 间 实 现 办 公信 息 交 互 和 共享 ， 实 现 内 部 办 公事 务 流程 化 
处 理 ， 流 程 实现 可 视 化 定制 和 管理 。 该 系统 主要 起 到 如 下 作用 : 
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@ ”提高 工作 效率 : 不 用 拿 着 各 种 文件 、 申 请 、 单 据 在 各 科室 跑 来 跑 去 ， 等 候审 批 、 签 
发 、 盖 章 ， 这 些 都 可 在 网 络 上 进行 。 

@ ”规范 单位 管理 : 把 一 些 弹 性 太 大 不 够 规范 的 工作 流程 做 得 井然 有 序 ， 比 如 : 公文 会 
签 、 计 划 日 志 等 工作 流程 审批 都 可 在 网 上 进行 。 

@ ”使 决策 变 得 迅速 科学 : 高 层 决策 不 再 是 在 不 了 解 情况 、 缺 乏 数据 的 环境 下 主管 决策 

而 是 以 数据 和 真相 为 依据 做 出 的 科学 决策 。 

提高 内 部 凝聚 力 : 科 员 与 上 级 沟通 很 方便 ， 信 息 反馈 畅通 ， 为 发 挥 科 员 的 智慧 和 积极 

性 提供 了 兽人 台 。 


办 公 系统 包括 公文 管理 、 会 议 管理 、 车 辆 管理 、 移 动 办 公 、 领 导 日 程 管理 、 通 信 录 管 
事宜 、 催 办 督办 以 及 行政 事务 管理 等 内 容 。 


综 


宗 合 
理 、 待 办 


ey 


11.2.9 智能 化 运营 管理 系统 


运营 管理 系统 是 一 个 为 环保 局 和 运营 公司 使 用 的 综合 系统 ， 提 供 了 三 大 系统 : 在 线 监测 系 
统 、 运 营 管理 系统 和 运营 管理 后 台 系 统 ， 一 共 25 个 子 系统 。 其 中 在 线 监测 包括 : 统计 分 析 、 地 
理 信息 、 现 场 端 信息 、 实 时 数据 、 连 接 状 态 、 运 维 统计 和 视频 监控 七 个 子 系统 ， 运 营 管理 系统 包 
括 : 个 人 主页 、 事 件 管理 、 人 员 管 理 、 标 准 与 规范 、 成 本 核算 、 绩 效 查看 、 环 保 知识 库 、FAQ 
和 环保 专家 库 九 个 子 系统 ， 运 营 管理 后 台 系 统 包括 : 新 闻 公 告 、 企 业 基 本 信息 、 人 员 管 理 、 任 务 
发 布 、FAQ 论坛 管理 、 资 料 文档 上 传 、 坐 标 查 询 工具 、QR 码 工具 和 绩效 考核 九 个 子 系统 。 


11.2.10 ”环保 移动 应 用 系统 


安装 在 环保 业务 人 员 的 智能 手机 上 的 环保 移动 应 用 ， 访 问 大 数据 平台 上 的 数据 来 进行 数据 查 
询 和 业务 操作 ， 实 现 移动 办 公 和 监控 。 环 保 局 管理 人 员 与 执法 人 员 能 够 实现 信息 的 及 时 获取 及 传 
送 ， 现 场 执法 、 现 场 办 公 以 及 信息 的 记录 等 功能 ， 提 高 环境 管理 的 效率 和 执法 的 准确 性 。 

在 环保 移动 应 用 上 ， 环 保 人 员 可 以 查询 各 类 数据 〈 如 : 污染 源 地 图 、 环 境 质量 信息 、 办 公信 
息 、 法 律 法 规 )， 完 成 现场 执法 、 稽 查 管理 等 多 个 功能 ， 同 时 将 执法 后 的 信息 立即 保存 到 环保 大 
数据 平台 上 。 在 平台 上 ， 专 门 为 移动 应 用 提供 了 相应 的 移动 服务 ， 手 机 应 用 通过 这 些 服务 访问 和 
管理 数据 中 心 上 的 数据 。 还 有 ， 智 能 手机 上 的 GPS 定位 环保 人 员 的 当前 位 置 和 行进 轨迹 。 当 有 
突 发 环境 或 信访 事件 发 生 时 ， 便 于 指挥 中 心 对 车 辆 和 人 员 进 行 调度 ， 及 时 对 事件 进行 处 置 。 

现场 执法 人 员 还 可 通过 环保 移动 应 用 在 对 环境 违法 企业 进行 现场 执法 。 比 如 : 记录 问讯 笔 
录 、 取 证 〈 拍 照 、 摄 像 、 录 音 等 )， 以 前 需要 手工 填写 问讯 笔录 ， 利 用 摄 录 设备 取证 。 有 目前 可 以 
通过 移动 应 用 ， 利 用 智能 手机 完成 笔录 和 取证 工作 ， 笔 录 和 取证 数据 立即 保存 在 环保 大 数据 平 
台 ， 提 高 了 工作 效率 。 

环保 移动 应 用 还 具有 污染 源 现场 核查 的 功能 。 从 前 ， 环 境 监 察 部 门 巡 检 需 要 准备 并 携带 大 量 
的 表格 、 文 书 、 参 考 资料 ， 到 现场 边 检 查 边 填 表 ， 对 有 疑惑 的 问题 要 现场 翻阅 相关 法 律 法 规 条 文 
和 文档 资料 。 检 查 完毕 返回 后 再 根据 现场 填写 表格 的 进行 计算 和 存档 。 通 过 环保 移动 应 用 ， 按 照 
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设 定 流程 填写 完 检查 单 。 

还 有 ， 各 类 环保 工作 人 员外 出 进行 现场 执法 和 检查 或 出 差 ， 其 间 可 通过 环保 移动 应 用 查询 各 
类 环境 新 闻 ， 可 查询 环保 部 、 省 政府 及 环保 厅 下 发 的 各 类 文件 和 通知 、 公 告 等 ， 可 进入 移动 办 公 
系统 进行 文件 办 理 。 

为 加 强 对 各 地 污染 企业 自动 监测 数据 管理 ， 监 控 中 心 每 月 不 定期 按 巡 查 比 对 、 监 督 检查 等 要 
求 对 企业 进行 检查 并 且 人 工 监测 污染 企业 的 污染 数据 。 检 查 的 项 目 包括 : 人 工 监测 平台 是 否 规 
范 、 排 污 单位 是 否 违规 进入 站 房 、 企 业 是 否 修改 设备 参数 、 企 业 是 否 模拟 数据 上 传 、 数 据 上 传 是 
否 符合 要 求 、 分 析 仪器 数据 是 否 与 上 传 数 据 一 致 、 是 否 存 在 虚报 停产 的 情况 、 历 史 问 题 是 否 已 经 
整改 以 及 其 他 违反 规定 的 情况 等 。 对 于 违规 企业 以 及 拒绝 检查 人 员 检 查 的 企业 ， 按 照 有 关 文 件 规 
定 ， 在 计算 当月 运行 率 、 准 确 率 和 超标 情况 时 按照 违反 规定 的 程度 来 统计 。 另 外 ， 将 人 工 监测 数 
据 与 人 工 监测 数据 同时 的 自动 监测 数据 相 比较 。 在 计算 当月 运行 率 、 准 确 率 和 超标 情况 时 按照 人 
工 监测 数据 与 自动 监测 数据 相差 程度 来 统计 。 

当 人 工 监测 数据 与 自动 监测 数据 的 误差 超过 国家 有 关 规 定时 ， 使 用 人 工 监测 数据 参与 各 种 报 
表 统计 分 析 。 实 现 人 工 监测 数据 与 自动 监测 数据 的 对 接 。 结 合 监控 交流 填报 的 企业 生产 状态 ， 自 
动 判断 出 历史 问题 是 否 整 改 ， 并 作出 相应 处 理 。 所 有 这 些 处 理 ， 都 可 以 在 环保 移动 应 用 上 完成 。 


11.2.11 ”空气 质量 发 布 系 统 


本 系统 主要 展示 各 个 监测 站 24 小 时 、48 小 时 、15 天 和 30 天 的 实时 数据 和 相关 的 趋势 图 。 
对 监测 点 位 的 空气 质量 监测 数据 进行 各 个 时 段 的 实时 数据 和 历史 数据 分 析 ， 显 示 二 氧化 硫 、 二 氧 
化 氮 、 可 吸入 颗粒 物 〈PMio)、PM2s 实时 数据 。 总 体 上 能 够 体现 民众 所 关心 的 空气 质量 信息 。 


1 了 .二 ”环保 大 数据 分 析 系统 


环保 大 数据 分 析 系 统 的 目标 是 通过 采用 数据 分 析 、 可 视 化 监测 和 地 理 信 息 技术 ， 并 通过 环保 
专家 知识 库 和 对 大 量 实时 和 历史 数据 的 挖掘 、 评 测 与 关联 性 分 析 ， 深 度 获取 和 挖掘 相关 环境 数 
据 ， 帮 助 环保 部 门 准 确 判 断 环境 变化 趋势 。 同 时 把 环保 危机 事件 的 预警 、 态 势 分 析 、 联 动 和 应 急 
指挥 决策 辅助 融 为 一 体 ， 提 供 准确 的 分 析 ， 挖 掘 掌握 水 、 气 、 土 壤 等 多 项 生态 环境 变迁 和 关联 性 
的 规律 ， 对 完善 环境 法 律 、 法 规 体系 、 环 保 行业 监测 规程 和 技术 标准 、 环 保 发 展 战略 的 规划 等 提 
供 充分 的 科学 依据 。 
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< 肥 倒 分析: 公 受 大 数据 > 


公安 大 数据 是 指 基于 大 数据 技术 来 满足 公安 数据 的 海量 汇聚 和 智能 分 析 的 需要 。 通 过 部 署 公 
安 大 数据 管理 平台 ， 为 公安 行业 构建 分 布 式 处 理 运 行 环境 和 集群 管理 平台 ， 建 设 公安 行业 统一 的 
分 布 式 数据 资源 层 〈 池 )。 这 个 数据 资源 层 为 公安 行业 提供 了 如 下 功能 


@ 集中 、 高 效 的 数据 资源 管理 体系 和 数据 资源 目录 体系 ， 强 化 公安 数据 标准 管理 ， 提 升 
数据 管理 能 力 ; 

@ ”统一 身份 认证 、 数 据 访问 控制 和 授权 管理 、 数 据 审核 机 制 ， 提 升 数据 安全 能 力 ; 

@ ”提供 数据 综合 门户 、 数 据 资 源 服务 系统 、 数 据 请 求 服务 系统 等 功能 ， 形 成 了 统一 的 数 
据 资源 服务 体系 ， 为 公安 信息 研判 、 业 务 应 用 、 信 息 共 享 提供 数据 服务 支撑 环境 ， 提 
升 数据 服务 能 力 ; 

@ ”实现 省 市 两 级 信息 资源 互通 级 联 ， 不 同业 务 系统 之 间 互 联 互 通 ， 提 升 协作 能 力 ; 

@@。 边 整 合 ， 边 应 用 ， 首 先 构 建 人 员 、 机 动车 、 案 件 专题 数据 库 ， 为 警 务实 战 应 用 提供 全 
要 素 、 档 案 式 资源 支撑 ， 提 升 创新 能 力 ; 

@ ”实现 公安 数据 资源 采集 、 交 换 、 服 务 、 应 用 的 全 链 路 展示 。 


总 体 架构 设计 


基于 分 布 式 计算 架构 ， 公 安 大 数 据 管理 平台 采用 大 数据 分 布 式 集群 系统 架构 ， 提 供 分 布 式 数 
据 服务 基础 资源 池 ， 为 分 布 式 数据 创新 应 用 提供 基础 平台 ， 是 “和 警 务 大 数据 ”工程 数据 挖掘 分 
析 服 务 平 台 、 智 慧 平 台 的 基础 保障 系统 ， 为 警 务 大 数据 分 析 应 用 统一 提供 高 性 能 的 分 布 式 计算 、 
大 数据 处 理 和 资源 服务 支撑 。 

大 数据 管理 平台 可 细 分 为 公安 大 数据 建 模 平台 、 公 安 大 数据 交换 共享 平台 、 公 安 大 数据 云 平 
台 、 公 安 大 数 据 服务 平台 。 

公安 大 数据 交换 共享 平台 负责 公安 数据 的 采集 与 交换 ， 数 据 采 集 需 包含 传统 数据 、 海 量 数据 
的 采集 。 其 中 海量 数据 的 采集 要 利用 大 数据 相关 技术 。 数 据 的 交换 也 需 包含 传统 数据 交换 、 海 量 
数据 交换 。 

公安 大 数据 云 平台 需 利 用 分 布 式 架构 技术 提供 的 分 布 式 存储 、 分 布 式 运算 对 海量 数据 根据 公 
安 业务 的 实际 要 求 进行 存储 与 运算 。 数 据 存储 要 保证 安全 、 高 效 。 数 据 运算 要 利用 分 布 式 架构 所 


提供 的 分 布 式 运算 ， 可 以 对 海量 的 数据 进行 快速 、 高 效 运算 以 达到 公安 业务 的 需求 。 
公安 大 数据 建 模 平台 需 完成 以 人 建 库 、 以 车 建 库 、 以 案 建 库 的 方式 ， 实 现 人 员 大 数据 、 车 辆 大 数 
据 、 案 件 大 数据 。 并 对 公安 业务 中 国 化 的 、 常 态 的 业务 需要 形成 相对 应 的 一 系列 主题 库 与 专题 库 。 
公安 大 数据 服务 平台 提供 数据 〈 和 数据 目录 ) 访问 入 口 ， 分 布 式 处 理 所 形 成 的 数据 可 以 通过 
数据 入 口 来 满足 各 类 和 警 务 应 用 系统 对 数据 资源 访问 要 求 。 还 需 提供 对 数据 的 管理 入 口 ， 通 过 管理 
入 口 可 以 对 大 数据 集成 形成 的 数据 做 符合 公安 工作 的 数据 管理 。 


12.2 建设 内 容 


按照 公安 部 《关于 印发 〈 公 安信 息 资 源 服务 平台 建设 任务 书 》 的 通知 》 的 要 求 ， 大 数据 管理 
平台 的 主要 建设 内 容 如 下 : 

@ 建设 分 布 式 系统 集群 

部 署 “ 大 数据 ”分 布 式 处 理 运 行 环境 和 集群 管理 平台 ， 为 警 务 大 数据 应 用 提供 高 性 能 的 分 布 
式 计 算 服 务 。 

@ 建设 分 布 式 数据 资源 层 

统一 建设 全 和 警 共享 的 大 数据 资源 池 ， 实 现 分 布 式 数 据 集成 ， 构 建 人 员 、 机 动车 、 案 件 专题 数 
据 库 ， 为 警 务实 战 应 用 提供 全 要 素 、 档 案 式 资源 支撑 。 

@ 建设 分 布 式 数据 资源 服务 

强化 公安 数据 标准 管理 和 数据 授权 管理 ， 实 现 省 市 两 级 信息 资源 服务 总 线 互通 级 联 ， 实 现 数 
据 资源 采集 、 交 换 、 服 务 、 应 用 的 可 视 化 、 全 链 路 展示 。 

各 子平 台 主要 功能 列表 如 表 12-1 所 示 。 


表 12-1 各 子平 台 主 要 功能 


主要 功能 
操作 系统 配置 
集群 安装 

硬件 资源 注册 
节点 配置 部 署 
集群 运行 监控 
集群 组 件 服务 
集群 安全 管理 


安装 部 署 分 布 式 集群 环境 


大 数据 云 平台 
(分 布 式 系统 集群 ) 
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( 续 表 ) 
子平 台 子 系统 主要 功能 
数据 标准) 模型 建立 和 管理 
标准 检测 管理 
标准 变更 申报 与 下 发 
WE 数据 级 联 管理 
数据 标准 引用 
大 数据 建 模 平台 专题 库 (人 、 车 、 案 ) 管理 
数据 存 人 管理 
权限 申请 、 权 限 管理 
角色 管理 
角色 授权 管理 
SE 权限 分 配 查询 
统一 用 户 和 用 户 组 管理 
访问 控制 管理 
异 构 数据 源 采集 规则 、 映 射 规则 ， 协 
议 转换 规则 管理 
资源 上 传 管理 
大 数据 交换 共享 平台 连接 异 构 数据 源 ， 并 获取 数据 
数据 交换 监控 
分 布 式 数据 访问 服务 
数据 资源 服务 数据 资源 全 链 路 展示 
机 数据 版 本 化 服务 
ST 目录 资源 管理 分 布 式 资源 目录 管理 
目录 资源 服务 请 求 资源 目录 
数据 申请 管理 申请 及 批复 管理 
数据 资源 利用 监控 
监控 中 心 审计 管理 
志 管理 
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1 2 .3 了 建设 步骤 


公安 大 数据 的 建设 步骤 可 简单 分 为 以 下 5 个 步骤 : 
(人 EI01 部 署 大 数据 管理 平台 ， 包 括 部 署 分 布 式 集群 系统 ; 


Eco2 


ED 
ED 


os 
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配置 数据 模型 和 安全 模型 ， 完 成 数据 级 联 、 数 据 标 准 、 数 据 授 权 等 功能 ， 配 置 采 集 规 
则 和 交换 规则 ， 实 现 数据 资源 采集 和 人 整合， 初步 形成 分 布 式 资源 池 。 

在 大 数据 建 模 平台 上 完成 人 、 车 、 案 等 各 类 专题 库 。 

通过 大 数据 服务 平台 为 大 数据 分 析 提 供 分 布 式 计算 服务 、 分 布 式 数 据 处 理 、 批 量 数据 
请 求 工具 ， 实 现 数据 资源 全 链 路 展示 功能 。 

开展 公安 大 数据 分 析 。 


计算 机 存储 最 小 的 基本 单位 是 bit， 按 顺序 给 出 所 有 单位 : bit、Byte、KB、MB、GB、TB、 
PB、EB、ZB、YB、BB、NB、DB。 它 们 按照 进 率 1024 (2 的 十 次 方 ) 来 计算 : 


Linux 系统 为 用 户 提供 两 个 接口 ， 一 个 是 面向 操作 命令 的 接口 shell 和 面向 程序 开发 的 接口 
API。 

Shell 是 Linux 系统 中 用 户 与 内 核 进行 交互 操作 的 一 种 接口 。 它 接收 用 户 输入 的 命令 并 把 它 
送 入 内 核 去 执行 。 实 际 上 Shell 是 一 个 命令 解释 器 ， 它 解释 由 用 户 输入 的 命令 并 且 把 它们 送 到 内 
核 。 不 仅 如 此 ，Shell 有 自己 的 编程 语言 用 于 对 命令 的 编辑 ， 它 允许 用 户 编写 由 shell 命令 组 成 的 
程序 。Shell 编程 语言 具有 普通 编程 语言 的 很 多 特点 ， 比 如 它 也 有 循环 结构 和 分 支 控制 结构 等 ， 
用 这 种 编程 语言 编写 的 Shell 程序 与 其 他 应 用 程序 具有 同样 的 效果 。 

每 个 Linux 系统 的 用 户 可 以 拥有 他 自己 的 用 户 界面 或 Shell， 用 以 满足 他 们 自己 专门 的 Shell 
需要 。Shell 也 有 多 种 不 同 的 版 本 。 主 要 有 下 列 版 本 的 Shell。 


@ ”Boume Shell: 是 贝尔 实验 室 开发 的 。 

@ BASH: 是 GNU 的 Bourne Again Shell 是 GNU 操作 系统 上 默认 的 shell。 本 书 例 子 上 
使 用 的 就 是 BASH Shell。 

@ Kor Shell: 是 对 Boume SHell 的 发 展 ， 大 部 分 内 容 与 Bourne Shell 兼容 。 

@ CShell: 是 SUN 公司 Shell 的 BSD 版 本 。 

@ ZShell: Z 是 最 后 一 个 字母 ,也 就 是 终极 Shell。 它 集成 了 bash、ksh 的 重要 特性 ， 同 时 
又 增加 了 自己 独 有 的 特性 。 


Shell 就 是 一 个 程序 ， 它 接受 从 键盘 输入 的 命令 ， 然后 把 命令 传递 给 操作 系统 去 执行 。 

终端 仿真 器 

当 使 用 图 形 用 户 界 面 时 ， 我 们 需要 另 一 个 和 shell 交互 的 叫做 终端 仿真 器 的 程序 。 我 们 单 
击 右键 ,会 找到 一 个 “terminal”。 

第 一 次 按键 

启动 终端 仿真 器 ， 一 旦 它 运 行 起 来 ， 我 们 应 该 看 到 一 行 像 这 样 的 文字 : 


这 叫做 shell 提示 符 ， 无 论 何 时 当 shell 准备 好 了 去 接受 输入 时 ， 它 就 会 出 现 。 它 可 能 会 以 
各 种 各 样 的 面孔 显示 ， 这 取决 于 不 同 的 Linux 发 行 版 ， 通 常 包括 你 的 用 户 名 @ 主 机 名 ， 紧 接着 


附录 2 Linux Shell 常见 命令 


当前 工作 目录 〈 稍 后 会 有 更 多 介绍 ) 和 一 个 美元 符号 。 

如 果 提 示 符 的 最 后 一 个 字符 是 “#” 而 不 是 “$” 那么 这 个 终端 会 话 就 有 超级 用 户 权 限 。 这 
意味 着 ， 我 们 或 者 是 以 root 用 户 的 身份 登录 ， 或 者 是 我 们 选择 的 终端 仿真 器 提供 超级 用 户 〈 管 
理 员 ) 权限 。 


命令 历史 


如 果 按 下 上 箭头 按键 ， 我 们 会 看 到 刚才 输入 的 命令 重新 出 现在 提示 符 之 后 。 这 就 叫做 命令 
历史 。 许 多 Linux 发 行 版 默认 保存 最 后 输入 的 500 个 命令 。 按 下 下 箭头 按键 ， 先 前 输入 的 命令 
就 消失 了 。 

移动 光标 

可 借助 上 箭头 按键 ， 来 获得 上 次 输入 的 命令 。 现 在 试 着 使 用 左右 箭头 按键 。 体会 一 下 怎样 
把 光标 定位 到 命令 行 的 任意 位 置 。 

关于 鼠标 和 光标 

虽然 ，shell 是 和 键盘 打交道 的 ， 但 你 也 可 以 在 终端 仿真 器 里 使 用 鼠标 。X 窗口 系统 内 建 了 
一 种 机 制 ， 支 持 快速 拷贝 和 粘贴 。 如 果 你 按 下 鼠标 左 键 ， 沿 着 文本 拖 动 鼠标 〈 或 者 双击 一 个 单 
词 ) 高 亮 了 一 些 文本 ， 那 么 这 些 高 亮 的 文本 就 被 拷贝 到 了 一 个 由 X 管理 的 缓冲 区 里 面 。 然 后 按 
下 鼠标 中 键 ， 这 些 文本 就 被 粘贴 到 光标 所 在 的 位 置 。 


运行 一 些 简单 命令 
现在 ， 我 们 执行 一 些 简单 的 命令 。 第 一 个 命令 是 date。 这 个 命令 显示 系统 当前 的 时 间 和 日 


一 个 相关 联 的 命令 ，cal， 它 默认 显示 当前 月 份 的 日 历 。 


查看 磁盘 剩余 空间 的 数量 ， 输 入 df。 
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同样 地 ， 显 示 空 闲 内 存 的 数量 ， 输 入 命令 free。 


结束 终端 会 话 
我 们 可 以 通过 关闭 终端 仿真 器 窗口 ， 或 者 是 在 shell 提示 符 下 输入 exit 命令 来 终止 一 个 终端 
会 话 : 


附录 3 
4Goanglia (分 布 式 监控 系统 》) > 


系统 部 署 上 线 之 后 ， 我 们 无 法 保证 系统 7X24 小 时 都 正常 运行 ， 即 使 是 在 运行 着 ， 我 们 也 
无 法 保证 Job 不 堆积 、 是 否 及 时 处 理 Kafka 中 的 数据 。 所 以 我 们 需要 实时 地 监控 系统 ， 包 括 监 
控 Flume、Kafka 集群 、Spark Streaming 程序 。 其 中 的 一 个 监控 系统 就 是 Ganglia， 一 旦 检测 到 
异常 ， 系 统 会 自己 先 重 试 是 否 可 以 自己 恢复 ， 如 果 不 行 ， 就 会 给 我 们 发 送 报警 邮件 ， 甚 至 是 打 电 
话 。 

Ganglia 是 UC Berkeley 发 起 的 一 个 开源 集群 监视 项 目 ， 是 一 个 跨 平台 、 可 扩展 的 、 高 性 能 


计算 系统 下 的 分 布 式 监控 系统 。 它 设计 用 于 测量 数 以 千 计 的 节点 。Ganglia 的 核心 包含 下 面 三 个 
组 件 : 


@ ”gmond (数据 监测 节点 ) : 这 个 部 件 安装 在 要 监测 的 节点 上 ， 用 于 收集 节点 的 运行 情 
况 ， 并 将 这 些 统计 信息 发 送 到 gmetad 上 ; 

@ gmetad (数据 收集 节点 ) : 该 部 件 用 于 收集 gmond 发 送 的 数据 ; 

@ 一 个 Web 前端 用 于 将 gmetad 整理 生成 的 xml 数据 以 网 页 形式 呈现 给 用 户 。 


gmetad 可 以 部 署 在 集群 内 任 一 台 节 点 或 者 通过 网 络 连 接 到 集群 的 独立 主机 ， 它 通过 单 播 路 
由 的 方式 与 gmond 通信 ， 收 集 区 域内 节点 的 状态 信息 ， 并 以 XML 数据 的 形式 ， 保 存在 数据 库 
中 。 由 RRDTool 工具 处 理 数据 ， 并 生成 相应 的 图 形 显示 ， 以 Web 方式 直观 地 提供 给 客户 端 。 

Ganglia 主要 是 用 来 监控 系统 性 能 ， 如 : cpu 、mem、 硬 盘 利 用 率 ， IO 负载 、 网 络 流量 情 
况 等 ， 通 过 曲线 很 容易 见 到 每 个 节点 的 工作 状态 ， 对 合理 调整 、 分 配 系统 资源 ， 提 高 系统 整体 性 
能 起 到 重要 作用 。gmond 带 来 的 系统 负载 非常 少 ， 这 使 得 它 成 为 在 集群 中 各 人 台 计 算 机 上 运行 的 
- 段 代码 ， 而 不 会 影响 用 户 性 能 。 

Ganglia 可 以 用 于 监控 Hadoop 项 目 ， 比 如 : Ganglia 可 监控 HBase 相关 进程 的 Requests 和 


Compactions Queue 等 。 


附录 4 auth-ssh 脚本 
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